Inspektor webových stránek
Web site inspector
bachelor thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/91596Identifiers
Study Information System: 192477
Collections
- Kvalifikační práce [12056]
Author
Advisor
Referee
Veselý, Pavel
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Programming and Software Systems
Department
Department of Applied Mathematics
Date of defense
6. 9. 2017
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
web crawling standardyKeywords (English)
web crawling standardsCílem této práce je vyvinout nástroj pro automatickou kontrolu webových strá- nek. V práci jsme vytvořili rozšiřitelný systém, který ověřuje provázanost odkazů a syntax HTML a CSS. K tomu jsme integrovali již existující nástroje a knihovny do jedné aplikace pomocí pluginů. Nástroj hledá odkazy v HTML a sitemaps. Podporuje také robots.txt včetně implementace crawl-delay a nalezení sitemap. Průběh kontrol se zadává konfiguračními pravidly. Kategorizace pluginů umožňuje ovlivňovat běh aplikace a její výstup. Kontrolujeme provázanost jak klasických hypertextových odkazů, tak odkazů přes jiné HTML značky (obrázky, rámce, kaskádové styly, skripty). Zároveň detekujeme kanonické adresy a přesměrování, duplikáty v obsahu, nebo použití nesémantických značek a atributů. Výslednou aplikaci lze snadno rozšířit o další druhy kontrol. 1
Our goal is to develop a tool for automatic website checking. We created an ex- tensible system that checks the validity of links as well as HTML and CSS syntax. For that, we integrated existing tools and libraries into one application using plu- gins. Our tool looks for links in HTML and sitemaps. Also, robots.txt including crawl-delay implementation and sitemap discovery is supported. The course of inspection can be affected by configuration rules. Plugin categorization allows for customization of inspection. Not only we verify the validity of standard hypertext links but also links through other HTML tags (images, frames, cascading styles, scripts). In addition, canonical addresses and redirection, duplicates in content or usage of non-semantic tags or attributes are detected. The developed application is extensible for other types of checks. 1
