Extraction and representation of unified metadata from files and file systems based on data formats
Extrakce a reprezentace jednotných metadat ze souborů a souborových systémů na základě datových formátů
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/181635Identifiers
Study Information System: 245962
Collections
- Kvalifikační práce [10932]
Author
Advisor
Referee
Svoboda, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Software and Data Engineering
Department
Department of Software Engineering
Date of defense
6. 6. 2023
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
RDF|formáty souborů|analýza formátu souborů|média|metadata|extrakce informacíKeywords (English)
RDF|file formats|file format analysis|media|metadata|information extractionTato práce dokumentuje proces analýzy, návrhu a implementace softwarového nástroje schopného přijímat soubory v různých formátech, podrobně je zkoumat a tvořit graf v Resource Description Framework reprezentující jejich metadata. Takový popis může být užitečný jakékoliv osobě nebo systému s porozuměním RDF, aby poskytl přehled o velkých kolekcích souborů nebo archivů, umožnil vyhledávání pomocí jazyka SPARQL na základě konkrétních doménových kritérií nebo identifikoval společné či odlišné entity v různých datasetech. Výsledky této práce může využít jakýkoliv jednotlivec nebo orga- nizace se záměrem zpracovávat soubory sémantickým a rozšiřitelným způsobem, nabíd- nout uživatelům webů pro poskytování souborů širokou škálu možností při vyhledávání, poskytnout analytikům způsob, jak pracovat s metadaty v kompaktní a podrobné podobě, oddělené od původního zdroje, nebo zlepšit systémy pro zpracovávání souborů lepší kon- trolou nad tím, jaký druh dat je přijímán a zpracováván. 1
This thesis documents the process of analyzing, designing, and implementing a soft- ware tool able to accept files in various formats, inspect them in depth, and produce a graph in the Resource Description Framework that represents their metadata. Such a description may be useful to any person or system capable of understanding RDF, to provide insight into large sets of files or archives, to allow searching using SPARQL based on concrete domain criteria, or to identify common or distinct entities across different datasets. The results of this thesis may be used by any individual or organization wish- ing to process files in a semantic and extensible way, to offer users of file hosting sites a wide range of search options, to provide analysts a way to work with metadata in a compact and detailed form, detached from the original source, or to improve systems for processing files with greater control over what kind of data is accepted and processed. 1