Automatic creation of charts from open datasets

Novelinka, Samuel

Automatické generování grafů z otevřených datasetů

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (347.5Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/148352

Identifikátory

SIS: 234807

Oponent práce

Klímek, Jakub

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Obecná informatika

Katedra / ústav / klinika

Katedra softwarového inženýrství

Datum obhajoby

10. 9. 2021

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

otvorené datasety|tabuľkové datasety|schema discovery|grafy

Klíčová slova (anglicky)

open data|tabular datasets|schema discovery|charts

V posledných rokoch sa na internete začali vo veľkej miere objavovať otvorené datasety. Túto situáciu možno pripísať rôznym faktorom ako zmeny legislatív po celom svete, ktoré sa snažia dosiahnuť transparenciu vládnych inštitúcií, ako aj vysoká popularita open- source softvéru. Tento fenomén však prichádza s mnohými problémami, ako je napríklad nejednoznačnosť či úplná neexistencia metadát. Tento fakt značne sťažuje prezeranie a vyhľadávanie v otvorených datasetoch. Aby sme aspoň čiastočne vyriešili tento problém, v tejto práci navrhneme algoritmus, ktorý využíva techniky schema discovery na parsovanie poskytnutých datasetov, a následne vytvára potenciálne užitočné grafické reprezentácie daných dát, aby tým ponúkol užívateľovi rýchly a jednoduchý náhľad na vnútorné zloženie a štruktúru. Následne opíšeme našu konkrétnu implmentáciu tohto algoritmu vo forme Chrome extension, ktorá dynamicky spracuje nájdené datasety, a vykreslí pre užívateľa možné grafické reprezentácie. Nakoniec uvedieme výsledky testov našej implementácie na sade náhodných datasetov, ukážeme príklady použitia a uzavrieme našu prácu zhrnutím našich postrehov ohľadom implementovaného algoritmu, kritikou slabších článkov imple- mentácie, ako aj našou predstavou konkrétnych vylepšení v blízkej budúcnosti. 1

Abstrakt (anglicky)

There has been a substantial influx of open datasets in recent years due to many factors such as new legislation aiming towards government transparency as well as the boom of open-source software. However, this abundance of freely available data comes with its own issues such as lacking or non-uniform metadata. This makes it considerably more difficult to browse and search open datasets. To partially tackle this problem we propose an algorithm which employs schema discovery techniques to parse the provided dataset and selects potentially useful charts which offer fast insight into the data structure, all while requiring minimal user interaction and configuration. Next, we describe a specific implementation of the algorithm in form of a Chrome extension, which dynamically processes a found dataset and renders a set of selected charts. Finally, we provide results of tests on a random set of datasets, give examples of usage of our implementation, and conclude the thesis with our final thoughts on the algorithm, our criticism, as well as ideas on potential improvements. 1

Citace dokumentu

Metadata

Zobrazit celý záznam