Automatic Generation of Synthetic XML Documents
Automatické generování umělých XML dokumentů
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/78270Identifikátory
SIS: 167483
Kolekce
- Kvalifikační práce [11196]
Autor
Vedoucí práce
Oponent práce
Svoboda, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
9. 9. 2015
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Velmi dobře
Klíčová slova (česky)
XML, JSON, Big Data, generátor, testování, benchmark, umělá data, NoSQLKlíčová slova (anglicky)
XML, JSON, Big Data, generator, testing, benchmark, synthetic data, NoSQLCílem této práce je prozkoumat možnosti a omezení v generování umělých XML a JSON dokumentů používaných v oblasti Big Data. První část práce zkoumá vlastnosti nejpoužívanejších XML generátorů, Big Data a JSON generátorů a porovnává jejich vlastnosti. Další část práce popisuje návrh vlastního algoritmu na generování semistrukturovaných dat. Hlavní zaměření algoritmu je paralelní vykonávání procesu generování se zachovaním možností na kontrolu obsahu generovaných dokumentů. Generátor umožňuje využít vzorky skutečných dat v procesu generování dat umělých a je také schopen automaticky generovat jednoduché odkazy mezi výstupními dokumenty ve formátu JSON. Poslední část práce poskytuje výsledky experimentů s generátorem při testování databáze MongoDB, popisuje jeho přínos a porovnává ho s jinými řešeními. Powered by TCPDF (www.tcpdf.org)
The aim of this thesis is to research the current possibilities and limitations of automatic generation of synthetic XML and JSON documents used in the area of Big Data. The first part of the work discusses the properties of the most used XML data generators, Big Data and JSON generators and compares them. The next part of the thesis proposes an algorithm for data generation of semistructured data. The main focus of the algorithm is on the parallel execution of the generation process while preserving the ability to control the contents of the generated documents. The data generator can also use samples of real data in the generation of the synthetic data and is also capable of automatic creation of simple references between JSON documents. The last part of the thesis provides the results of experiments with the data generator exploited for the purpose of testing database MongoDB, describes its added value and compares it to other solutions. Powered by TCPDF (www.tcpdf.org)