Web page analyzer for scraping
Analyzátor webových stránek pro extrakci dat
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/183127Identifikátory
SIS: 258782
Kolekce
- Kvalifikační práce [11217]
Autor
Vedoucí práce
Oponent práce
Petříček, Tomáš
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Programování a softwarové systémy
Katedra / ústav / klinika
Katedra teoretické informatiky a matematické logiky
Datum obhajoby
29. 6. 2023
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Dobře
Klíčová slova (česky)
extrakce dat z webu|analyzátor webových stránekKlíčová slova (anglicky)
web scraping|page analyserWeb scraping je technika používaná ve spoustě aplikací k získání dat z webových stránek. Pro vytvoření scraperu musí vývojář nejdříve provést analýzu webové stránky, ze které chce data stahovat. Tato analýza se dělá pomocí nástrojů jako web devtools nebo Postman a je zapotřebí na nalezení dat a na určení efektivního způsobu jak scrapovat webstránku. Struktury jed- notlivých webových stránek se velmi liší, a proto je proces analýzy zdlouhavý a časově náročný. Cílem tohoto projektu je vytvořit nástroj, který by mohl použít i běžný uživatel, aby získal přehled o tom, jak lze data z dané webové stránky efek- tivně stáhnout. Tento nástroj provede analýzu vstupní webové stránky, jejíž výsledky jsou prezentovány v minimalistickém uživatelském rozhraní. Výstup analýzy může být použitý jako návod na konfiguraci web scrapingových ná- strojů bez psaní kódu a rovněž jako podklad pro vývoj webového scraperu.
Web scraping is a technique used for a variety of applications to extract data from the web. To create a scraper, a developer needs to perform an analysis of the scraped website using tools like web devtools or Postman. This analysis is necessary to locate the data and to determine an effective way to scrape the website. The structure of websites varies greatly and the process of analysis is tedious and time-consuming. The goal of this project is to create a tool, that a non-developer could use to get an insight into where the data is stored on the website and how it can be scraped. An analysis is performed on the input website. Results of the analysis are presented in a minimalist user interface. Output of the analysis can be used as a guide for no code web scraping tools configuration as well as a baseline for a web scraper development.