Optimalizace přístupu pro odvozování schématu z multi-modelových dat
An optimization of an approach for the inference of schema from multi-model data
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/192813Identifiers
Study Information System: 265066
Collections
- Kvalifikační práce [11338]
Author
Advisor
Referee
Bártík, Jáchym
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science with specialisation in Programming and Software Development
Department
Department of Software Engineering
Date of defense
5. 9. 2024
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
Optimalizace|Odvozování schéma|NoSQL databáze|ProfilováníKeywords (English)
Optimalization|Schema inference|NoSQL databases|ProfilingS rostoucím významem (multi-modelových) NoSQL systémů bez nebo s částečným schématem, které by přesně definovalo jednotlivé atributy v záznamech, je možnost zpět- ného odvození tohoto schématu z dat potřebná pro řadu aplikací. Projekt MM-infer, dříve vytvořený jako diplomová práce, umožňuje zpětně extrahovat toto schéma. Tento projekt však trpí nedostatky ve výkonosti, což limitovalo jeho použitelnost hlavně na velkých a komplexních datech. Tato práce pokračuje v projektu MM-infer a optimalizuje v první řadě jeho rychlost. Dále také opravuje některé chyby, které se nevyhnutelně vyskytly při jeho vytváření. Nakonec zvyšuje přesnost odvozovaného schéma přidáním další heuristiky identifikující hlavní prvky ve schématu do jednoho z algoritmů. 1
With the increasing importance of (multi-model) NoSQL systems without or with partial schema, which would precisely define each attribute in the records, is an option to reverse infer this schema from the data needed for plenty of applications. Project MM-infer created earlier as a master thesis enables to extract this schema. This project however suffers from faults in performance which limited its usability mainly on large and complex data. This thesis continues in MM-infer project and optimizes primaly its speed. It also fixes some bugs, which were inevitably created during its creation. At last it increases precision of the inferred schema by adding new heuristics which identify main elements in the schema from one of its algorithms. 1