Automatic creation of charts from open datasets
Automatické generování grafů z otevřených datasetů
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/148352Identifikátory
SIS: 234807
Kolekce
- Kvalifikační práce [11981]
Autor
Vedoucí práce
Oponent práce
Klímek, Jakub
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
10. 9. 2021
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
otvorené datasety|tabuľkové datasety|schema discovery|grafyKlíčová slova (anglicky)
open data|tabular datasets|schema discovery|chartsV posledných rokoch sa na internete začali vo veľkej miere objavovať otvorené datasety. Túto situáciu možno pripísať rôznym faktorom ako zmeny legislatív po celom svete, ktoré sa snažia dosiahnuť transparenciu vládnych inštitúcií, ako aj vysoká popularita open- source softvéru. Tento fenomén však prichádza s mnohými problémami, ako je napríklad nejednoznačnosť či úplná neexistencia metadát. Tento fakt značne sťažuje prezeranie a vyhľadávanie v otvorených datasetoch. Aby sme aspoň čiastočne vyriešili tento problém, v tejto práci navrhneme algoritmus, ktorý využíva techniky schema discovery na parsovanie poskytnutých datasetov, a následne vytvára potenciálne užitočné grafické reprezentácie daných dát, aby tým ponúkol užívateľovi rýchly a jednoduchý náhľad na vnútorné zloženie a štruktúru. Následne opíšeme našu konkrétnu implmentáciu tohto algoritmu vo forme Chrome extension, ktorá dynamicky spracuje nájdené datasety, a vykreslí pre užívateľa možné grafické reprezentácie. Nakoniec uvedieme výsledky testov našej implementácie na sade náhodných datasetov, ukážeme príklady použitia a uzavrieme našu prácu zhrnutím našich postrehov ohľadom implementovaného algoritmu, kritikou slabších článkov imple- mentácie, ako aj našou predstavou konkrétnych vylepšení v blízkej budúcnosti. 1
There has been a substantial influx of open datasets in recent years due to many factors such as new legislation aiming towards government transparency as well as the boom of open-source software. However, this abundance of freely available data comes with its own issues such as lacking or non-uniform metadata. This makes it considerably more difficult to browse and search open datasets. To partially tackle this problem we propose an algorithm which employs schema discovery techniques to parse the provided dataset and selects potentially useful charts which offer fast insight into the data structure, all while requiring minimal user interaction and configuration. Next, we describe a specific implementation of the algorithm in form of a Chrome extension, which dynamically processes a found dataset and renders a set of selected charts. Finally, we provide results of tests on a random set of datasets, give examples of usage of our implementation, and conclude the thesis with our final thoughts on the algorithm, our criticism, as well as ideas on potential improvements. 1
