Converting HTML product data to Linked Data
Transformace HTML dat o produktech do Linked Data formátu
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/101354Identifikátory
SIS: 178725
Kolekce
- Kvalifikační práce [11196]
Autor
Vedoucí práce
Oponent práce
Svoboda, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
10. 9. 2018
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Velmi dobře
Klíčová slova (česky)
linked data, znalostní báze, datová kvalitaKlíčová slova (anglicky)
linked data, knowledge bases, data qualityPre priblíženie sa myšlienke Sémantického Webu je potrebný výskum v oblasti získavania sémantických informácií z dokumentov publikovaných na súčasnom Webe 2.0. Neustále narastajúci počet dát publikovaných vo forme relačných tabuliek viedol ku vzniku systému Odalic. Systém Odalic, založený na rozšírenej verzii Semantic Table Interpretation algoritmu TableMiner+ , poskytuje pohodlný spôsob sémantizácie tabuľkových dát za pomoci existujúcich znalostných databáz. Cieľom tejto práce je navrhnúť vylepšenú verziu algoritmu pre systém Odalic, ktorý by mu umožnil získať sémantické informácie z tabuliek reprezentujúcich dáta o produktoch z e-shopov napriek tomu, že takéto dáta majú v existujúcich znalostných databázach neveľké zastúpenie. To by malo byť dosiahnuté použitím metódy strojového učenia - klasifikácie. Táto diplomová práca sa skladá z týchto častí - získavanie a príprava dát o produktoch z e-shopov, porovnanie niekoľkých vybraných klasifikačných algoritmov, popis návrhu a implementácie vylepšeného algoritmu pre systém Odalic, popis integrácie tohto algoritmu do systému Odalic, vyhodnotenie prínosu tohto algoritmu pre systém Odalic za pomoci získaných produktových dát a sémantizácia získaných...
In order to make a step towards the idea of the Semantic Web it is necessary to research ways how to retrieve semantic information from documents published on the current Web 2.0. As an answer to growing amount of data published in a form of relational tables, the Odalic system, based on the extended TableMiner+ Semantic Table Interpretation algorithm was introduced to provide a convenient way to semantize tabular data using knowledge base disambiguation process. The goal of this thesis is to propose an extended algorithm for the Odalic system, which would allow the system to gather semantic information for tabular data describing products from e-shops, which have very limited presence in the knowl- edge bases. This should be achieved by using a machine learning technique called classification. This thesis consists of several parts - obtaining and preprocessing of the product data from e-shops, evaluation of several classification algorithms in order to select the best-performing one, description of design and implementation of the extended Odalic algorithm, description of its integration into the Odalic system, evaluation of the improved algorithm using the obtained product data and semantization of the product data using the new Odalic algorithm. In the end, the results are concluded and possible...