Discovering and Creating Relations among CSV Columns Using Linked Data Knowledge Bases
Hledání a vytváření relací mezi sloupci v CSV souborech s využitím Linked Dat
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/105094Identifiers
Study Information System: 176221
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Svoboda, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software and Data Engineering
Department
Department of Software Engineering
Date of defense
4. 2. 2019
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Very good
Keywords (Czech)
CSV, linked data, otevřená data, relace, sémantická interpretace tabulekKeywords (English)
CSV, linked data, open data, relations, semantic table interpretationVelké množství dat produkovaných vládními organizacemi je přístupné ve formě tabulek kódovaných jako CSV soubory. Sémantická interpretace tabulek (STI) usiluje o jejich převod na linked data, s cílem zvýšit jejich užitečnost. Jelikož obsahem jsou převážně statistická data, sestávající se z číselných hodnot, je žádoucí disponovat efektivními prostředky na interpretaci relací mezi entitami a jejich číselnými atributy tak, jak jsou zachyceny v tabulkách. Soudobé obecné STI nástroje odvozují anotace sloupců téměř výlučně z číselných předmětů RDF trojic, které jsou již přítomné ve znalostních bázích obsahujících linked data. A proto nedokáží rozpoznat neznámé vstupní hodnoty, díky čemuž disponují jen slabou podporou pro své návrhy. Na druhou stranu známé techniky zaměřující se na číselné hodnoty mají též své neduhy. Buďto je jejich znalostní pozadí konstruováno top-down způsobem z obecných znalostních bází, které nepostihují doménu vstupu, a tak neobsahují blízké hodnoty v rozpoznatelné podobě. A nebo nevyužívají kontextu poskytovaného obecnými STI nástroji. Důsledkem toho zaměňují anotace sloupců obsahujících podobné hodnoty, ale zcela odlišného významu. Zmíněné nedostatky jsou v rámci této diplomové práce řešeny aplikací bottom-up přístupu ke konstrukci modelu znalostního pozadí, s využitím již zpracovaných...
A large amount of data produced by governmental organizations is accessible in the form of tables encoded as CSV files. Semantic table interpretation (STI) strives to transform them into linked data in order to make them more useful. As significant portion of the tabular data is of statistical nature, and therefore comprises predominantly of numeric values, it is paramount to possess effective means for interpreting relations between the entities and their numeric properties as captured in the tables. As the current general-purpose STI tools infer the annotations of the columns almost exclusively from numeric objects of RDF triples already present in the linked data knowledge bases, they are unable to handle unknown input values. This leaves them with weak evidence for their suggestions. On the other hand, known techniques focusing on the numeric values also have their downsides. Either their background knowledge representation is built in a top-down manner from general knowledge bases, which do not reflect the domain of input and in turn do not contain the values in a recognizable form. Or they do not make use of context provided by the general STI tools. This causes them to mismatch annotations of columns consisting from similar values, but of entirely different meaning. This thesis addresses the...