Inspektor webových stránek
Web site inspector
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/91596Identifikátory
SIS: 192477
Kolekce
- Kvalifikační práce [10678]
Autor
Vedoucí práce
Oponent práce
Veselý, Pavel
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Programování a softwarové systémy
Katedra / ústav / klinika
Katedra aplikované matematiky
Datum obhajoby
6. 9. 2017
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
web crawling standardyKlíčová slova (anglicky)
web crawling standardsCílem této práce je vyvinout nástroj pro automatickou kontrolu webových strá- nek. V práci jsme vytvořili rozšiřitelný systém, který ověřuje provázanost odkazů a syntax HTML a CSS. K tomu jsme integrovali již existující nástroje a knihovny do jedné aplikace pomocí pluginů. Nástroj hledá odkazy v HTML a sitemaps. Podporuje také robots.txt včetně implementace crawl-delay a nalezení sitemap. Průběh kontrol se zadává konfiguračními pravidly. Kategorizace pluginů umožňuje ovlivňovat běh aplikace a její výstup. Kontrolujeme provázanost jak klasických hypertextových odkazů, tak odkazů přes jiné HTML značky (obrázky, rámce, kaskádové styly, skripty). Zároveň detekujeme kanonické adresy a přesměrování, duplikáty v obsahu, nebo použití nesémantických značek a atributů. Výslednou aplikaci lze snadno rozšířit o další druhy kontrol. 1
Our goal is to develop a tool for automatic website checking. We created an ex- tensible system that checks the validity of links as well as HTML and CSS syntax. For that, we integrated existing tools and libraries into one application using plu- gins. Our tool looks for links in HTML and sitemaps. Also, robots.txt including crawl-delay implementation and sitemap discovery is supported. The course of inspection can be affected by configuration rules. Plugin categorization allows for customization of inspection. Not only we verify the validity of standard hypertext links but also links through other HTML tags (images, frames, cascading styles, scripts). In addition, canonical addresses and redirection, duplicates in content or usage of non-semantic tags or attributes are detected. The developed application is extensible for other types of checks. 1