Univerzální systém pro triplifikaci dat z HTML dokumentů
Universal Framework for HTML Triplification
Univerzální systém pro triplifikaci dat z HTML dokumentů
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/58087Identifiers
Study Information System: 126577
Collections
- Kvalifikační práce [11322]
Author
Advisor
Referee
Klímek, Jakub
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Administration of computer systems
Department
Department of Software Engineering
Date of defense
24. 1. 2013
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Slovak
Grade
Excellent
Keywords (Czech)
HTML, LinkedData, TriplifikaceKeywords (English)
HTML, LinkedData, TriplificationCieľom tejto bakalárskej práce je predstaviť technológie Linked Data a Resource Description Framework, prieskum situácie v oblasti získavania dát z HTML dokumentov a ich prevodu do formátu RDF. V práci je predstavený softwarový systém Strigil, ktorý slúži práve na účely triplifikácie dát z HTML dokumentov, je však rozšíriteľný aj na iné formáty. Schopnosti tohoto systému sú demonštrované prostredníctvom triplifikácie dát z vybraných zdrojov. Nad získaných dátami sú následne vytvárané niektoré štatistické informácie. Na záver je celá práca zhrnutá, a sú uvedené niektoré postrehy ohľadne extrahovania dát z Webových stránok.
The aim of this bachelor thesis is to introduce Linked Data and Resource Description Framework technologies, and map the current situation in the field of HTML document data extraction and extracted data conversion to RDF format. In this thesis, the software system Strigil is introduced. This system is designed to triplificate data from HTML documents, however, it is extensible for another file formats. The features of this system are demonstrated by triplificating data from selected Web sites. Then, some statistical information about this RDF data are shown. In the conclusion of this thesis, the entire thesis is summarized, and some useful hints about Web site scraping are mentioned.