Data Factory
Data Factory
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/202476Identifikátory
SIS: 283054
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Holubová, Irena
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Programování a vývoj software
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
4. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
dcat|dcat-ap|linked-data-platform|pipeline|extract-transform-load|data managementKlíčová slova (anglicky)
dcat|dcat-ap|linked-data-platform|pipeline|extract-transform-load|data managementTato práce se zabývá kritickou mezerou v současném prostředí správy dat, kde plat- formy pro orchestraci úloh a vědecké datové toky často postrádají jednotnou metadatovou vrstvu nezbytnou pro implementaci principů FAIR v patřičném rozsahu. Jako řešení je představena "Data Factory", Proof-of-Concept platformy navržené na základě přístupu metadata-first. Platforma je postaven na architektuře mikroslužeb, která odděluje jed- notlivé funkce a využívá strategii polyglotní perzistence. Pro správu propojeného grafu metadat využívá RDF triplestore Apache Jena a MinIO pro binární artefakty objektové úložiště kompatibilní s S3. Tento návrh vytváří robustní základ pro datový ekosystém, v němž jsou data, nástroje a pracovní postupy nejen prováděny, ale jsou také z podstaty vyhledatelné, srozumitelné a znovupoužitelné. Práce podrobně popisuje návrh, implemen- taci a pracovní postupy pro klíčové uživatele a demonstruje tak proveditelnost a výhody architektury zaměřené na metadata při dosahování skutečně interoperabilních datových systémů.
This thesis addresses a critical gap in the current data management landscape, where platforms for task orchestration and scientific data flow often lack the unified metadata layer necessary to implement the FAIR data principles at scale. To solve this, the "Data Factory" is introduced, a Proof-of-Concept platform designed around a metadata-first approach. The system is built on a microservice architecture that separates concerns, employing a polyglot persistence strategy. It uses an RDF triplestore Apache Jena to manage an interconnected graph of metadata and an S3-compatible object store MinIO for binary artifacts. This design establishes a robust foundation for a data ecosystem where data, tools and workflows are not only executed but are also inherently discov- erable, understandable and reusable. The thesis details the design, implementation and workflows for its key users, demonstrating the feasibility and advantages of a metadata- centric architecture in achieving truly interoperable data systems.
