dc.contributor.advisor | Koupil, Pavel | |
dc.creator | Veinhardt Latták, Ivan | |
dc.date.accessioned | 2022-04-06T11:48:19Z | |
dc.date.available | 2022-04-06T11:48:19Z | |
dc.date.issued | 2021 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/148825 | |
dc.description.abstract | NoSQL databáze nabírají na popularitě kvůli svým nepopíratelným výhodám v oblasti ukládání a zpracování velkých dat, zejmnéna horizontální škálovatelnosti a faktu, že není potřeba předem definovat datové schéma. Nicméně, v nepřítomnosti explicitního sché- matu neoddělitelně od uložených dat existuje schéma implicitní, které se dá odvodit. Po odvození má toto schéma velkou hodnotu pro zúčastněné strany a databázové správce. Problém odvozování schématu je ovšem netriviální a je stále předmětem výzkumů. V práci pokrýváme mnohé aspekty odvozování schématu a modelování dat NoSQL, ana- lyzujeme několik existujících odvozovacích řešení co se týče jejich vnitřních principů a schopností, poukazujeme na jejich nedostatky a navrhujeme (1) nový horizontálně škálo- vatelný přístup založený na platformě Apache Spark a (2) nový NoSQL Schema meta- model schopný modelovat mj. mezientitní referenční vztahy a hluboce vnořené konstrukty JSON. Posléze experimentálně hodnotíme nově-navržený přístup s existujícími řešeními s ohledem na jejich funkční a výkonnostní dovednosti. 1 | cs_CZ |
dc.description.abstract | NoSQL databases are becoming increasingly more popular due to their undeniable advantages in the context of storing and processing big data, mainly horizontal scala- bility and the lack of a requirement to define a data schema upfront. In the absence of explicit schema, however, an implicit schema inherent to the stored data still exists and can be inferred. Once inferred, a schema is of great value to the stakeholders and database maintainers. Nevertheless, the problem of schema inference is non-trivial and is still the subject of ongoing research. We explore the many aspects of NoSQL schema inference and data modeling, analyze a number of existing schema inference solutions in terms of their inner workings and capabilities, point out their shortcomings, and devise (1) a novel horizontally scalable approach based on the Apache Spark platform and (2) a new NoSQL Schema metamodel capable of modeling i.a. inter-entity referential relation- ships and deeply nested JSON constructs. We then experimentally evaluate the newly designed approach along with the preexisting solutions with respect to their functional and performance capabilities. 1 | en_US |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | Schema inference|NoSQL databases|Document-based data stores|JSON | en_US |
dc.subject | Odvozování schématu|NoSQL databáze|Dokumentová datová úložiště|JSON | cs_CZ |
dc.title | Schema Inference for NoSQL Databases | en_US |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2021 | |
dcterms.dateAccepted | 2021-09-13 | |
dc.description.department | Department of Software Engineering | en_US |
dc.description.department | Katedra softwarového inženýrství | cs_CZ |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 229611 | |
dc.title.translated | Odvozování schématu v NoSQL databázích | cs_CZ |
dc.contributor.referee | Svoboda, Martin | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Softwarové a datové inženýrství | cs_CZ |
thesis.degree.discipline | Software and Data Engineering | en_US |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Katedra softwarového inženýrství | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Department of Software Engineering | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Softwarové a datové inženýrství | cs_CZ |
uk.degree-discipline.en | Software and Data Engineering | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | NoSQL databáze nabírají na popularitě kvůli svým nepopíratelným výhodám v oblasti ukládání a zpracování velkých dat, zejmnéna horizontální škálovatelnosti a faktu, že není potřeba předem definovat datové schéma. Nicméně, v nepřítomnosti explicitního sché- matu neoddělitelně od uložených dat existuje schéma implicitní, které se dá odvodit. Po odvození má toto schéma velkou hodnotu pro zúčastněné strany a databázové správce. Problém odvozování schématu je ovšem netriviální a je stále předmětem výzkumů. V práci pokrýváme mnohé aspekty odvozování schématu a modelování dat NoSQL, ana- lyzujeme několik existujících odvozovacích řešení co se týče jejich vnitřních principů a schopností, poukazujeme na jejich nedostatky a navrhujeme (1) nový horizontálně škálo- vatelný přístup založený na platformě Apache Spark a (2) nový NoSQL Schema meta- model schopný modelovat mj. mezientitní referenční vztahy a hluboce vnořené konstrukty JSON. Posléze experimentálně hodnotíme nově-navržený přístup s existujícími řešeními s ohledem na jejich funkční a výkonnostní dovednosti. 1 | cs_CZ |
uk.abstract.en | NoSQL databases are becoming increasingly more popular due to their undeniable advantages in the context of storing and processing big data, mainly horizontal scala- bility and the lack of a requirement to define a data schema upfront. In the absence of explicit schema, however, an implicit schema inherent to the stored data still exists and can be inferred. Once inferred, a schema is of great value to the stakeholders and database maintainers. Nevertheless, the problem of schema inference is non-trivial and is still the subject of ongoing research. We explore the many aspects of NoSQL schema inference and data modeling, analyze a number of existing schema inference solutions in terms of their inner workings and capabilities, point out their shortcomings, and devise (1) a novel horizontally scalable approach based on the Apache Spark platform and (2) a new NoSQL Schema metamodel capable of modeling i.a. inter-entity referential relation- ships and deeply nested JSON constructs. We then experimentally evaluate the newly designed approach along with the preexisting solutions with respect to their functional and performance capabilities. 1 | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra softwarového inženýrství | cs_CZ |
thesis.grade.code | 1 | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |