Web page data figure finder
Vyhledávač údajů ve webových stránkách
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/78411Identifiers
Study Information System: 173509
Collections
- Kvalifikační práce [11322]
Author
Advisor
Referee
Nečaský, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Software Engineering
Date of defense
16. 6. 2016
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Very good
Keywords (Czech)
Sémantizace webu, extrakce dat, experimentální práce, prohlížečový plugin, sběr datKeywords (English)
Web Semantisation, data extraction, experimental work, Web browser plugin, data collectionTato práce se zabývá automatickým získávání sémantických dat z webových stránek. V rámci tohoto široké ho problému se zaměřuje na vyhledávání hodnot údajů v rámci stránky, která prezentuje nějakou entitu (například údaj cena u stránky notebooku). Hlavní myšlenka, kterou jsme chtěli ověřit, je, že můžeme automaticky najít údaj za využití jeho kontextu v rámci stránky: slov, která ho obklopují a slov uvnitř atributů HTML tagů, v nichž je obsažen, obzvlášt' atribut class. Náš výzkum odhalil, že soudobá řešení tohoto problému lze rozdělit do dvou typů: bud' musí autor webové stránky vepsat sémantické informace do kód stránky, nebo existují komerční nástroje, které mohou být naučeny na čtení konkrétního formátu stránky (se zaměřením a stránky z jedné webové domény). Prozkoumali jsme možnosti vývoje obecného řešení, které by pro danou entitu našlo hodnoty jeho údajů napříč webovými doménami za využití analýzy textu a strojového učení. Naivní algoritmus měl přesnost okolo 30%, učící algoritmy měly přesnost mezi 40 a 50 Klíčová slova: Webové stránky extrakce data 1
The thesis treats automatic extraction of semantic data from Web pages. Within this broad problem, it focuses on finding values of data figures within the page presenting certain entity (e.g. price of a laptop). The main idea we wanted to evaluate is that a figure can be found using its context in the page: the words that surround it and values of the attributes of the containing HTML tags, class attribute in particular. Our research revealed there are two types of contemporary solutions of this problem: either the author of the Web page must inline semantic information inside the markup of the page or there are commercial tools that can be trained to parse a particular page format (targetting pages from a single Web domain). We examined the possibilities of developing a general solution that would - for given entity - find its properties across the Web domains using text analysis and machine learning. The naïve algorithm had about 30% accuracy, the lear- ning algorithms had the accuracy between 40 and 50% in finding the properties. Despite the accuracy is not acceptable for a final solution, we believe it confirms the potential of the idea. Keywords: Web pages data extraction 1