AI-based Structured Web Data Extraction

Joneš, Jan

Extrakce strukturovaných dat z webu pomocí umělé inteligence

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (347.4Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/174143

Identifikátory

SIS: 241832

Oponent práce

Peška, Ladislav

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Umělá inteligence

Katedra / ústav / klinika

Katedra softwarového inženýrství

Datum obhajoby

15. 6. 2022

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

extrakce strukturovaných dat z webu|scrapování webu|automatické scrapování|umělá inteligence

Klíčová slova (anglicky)

structured web information extraction|web content mining|web scraping|wrapper generation|artificial intelligence

V této práci se zabýváme současnými přístupy k automatické extrakci dat z webu, definujeme jejich omezení a usilujeme o jejich překonání. Za tímto účelem navrhujeme model hlubokého učení pro extrakci strukturovaných dat z grafových a vizuálních reprezentací webových stránek. Model vyhodno- cujeme na starším souboru dat z roku 2011, který rozšiřujeme o chybějící vizuální aspekty, a na novém souboru dat sestávajícím z moderních strá- nek. Náš model dosahuje výsledků porovnatelných s nejnovějším výzkumem a překonává baseline model založený na jedné z nejlepších předchozí prací o nejméně 10 procentních bodů na F1 skóre. Dbáme na to, aby implemen- tace byla reprodukovatelná, a poskytujeme i ukázku extrakce dat z reálných stránek.

Abstrakt (anglicky)

In this thesis, we explore current approaches for automatic web data extraction, define their limitations, and aim to overcome them. We propose a deep learning model to extract structured data from graph and visual representations of web pages. The model is evaluated on an older dataset from 2011 which we augment with missing visual assets, and a new dataset consisting of modern websites. It achieves results competitive with recent work and outperforms our baseline based on a state-of-the-art model by at least 10 percentage points on the F1 score. We ensure the implementation is reproducible and provide a demo of extraction from live pages.

Citace dokumentu

Metadata

Zobrazit celý záznam