AI-based Structured Web Data Extraction
Extrakce strukturovaných dat z webu pomocí umělé inteligence
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/174143Identifiers
Study Information System: 241832
Collections
- Kvalifikační práce [11322]
Author
Advisor
Referee
Peška, Ladislav
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Artificial Intelligence
Department
Department of Software Engineering
Date of defense
15. 6. 2022
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
extrakce strukturovaných dat z webu|scrapování webu|automatické scrapování|umělá inteligenceKeywords (English)
structured web information extraction|web content mining|web scraping|wrapper generation|artificial intelligenceV této práci se zabýváme současnými přístupy k automatické extrakci dat z webu, definujeme jejich omezení a usilujeme o jejich překonání. Za tímto účelem navrhujeme model hlubokého učení pro extrakci strukturovaných dat z grafových a vizuálních reprezentací webových stránek. Model vyhodno- cujeme na starším souboru dat z roku 2011, který rozšiřujeme o chybějící vizuální aspekty, a na novém souboru dat sestávajícím z moderních strá- nek. Náš model dosahuje výsledků porovnatelných s nejnovějším výzkumem a překonává baseline model založený na jedné z nejlepších předchozí prací o nejméně 10 procentních bodů na F1 skóre. Dbáme na to, aby implemen- tace byla reprodukovatelná, a poskytujeme i ukázku extrakce dat z reálných stránek.
In this thesis, we explore current approaches for automatic web data extraction, define their limitations, and aim to overcome them. We propose a deep learning model to extract structured data from graph and visual representations of web pages. The model is evaluated on an older dataset from 2011 which we augment with missing visual assets, and a new dataset consisting of modern websites. It achieves results competitive with recent work and outperforms our baseline based on a state-of-the-art model by at least 10 percentage points on the F1 score. We ensure the implementation is reproducible and provide a demo of extraction from live pages.