High-performance exploration and querying of selected multi-dimensional spaces in life sciences
Vysoce výkonné prohledávání a dotazování ve vybraných mnohadimenzionálních prostorech v přírodních vědách
dizertační práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/124231Identifikátory
SIS: 164334
Katalog UK: 990024224270106986
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Glaab, Enrico
Svozil, Daniel
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
15. 12. 2020
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Prospěl/a
Klíčová slova (česky)
vysokodimenzionální data, vyhledávání informací, chemoinformatika, redukce dimenzionality, cytometrie, vyhledávání multimédiíKlíčová slova (anglicky)
high-dimensional data, information retrieval, cheminformatics, dimensionality reduction, cytometry, multimedia retrievalTato práce studuje, implementuje a experimentuje se specifickými, aplikačně orien- tovanými přístupy pro prozkoumávání a dotazování multimediálních dat. První část práce zkoumá indexování komplexního prostoru chemických sloučenin a popisuje návrh vysoce výkonného systému pro dotazování v databázích malých molekul. Výsledný sys- tém je následně využit v širším kontextu federovaného vyhledávání v heterogenních dat- ech a metadatech souvisejících s chemickými informačními zdroji. V druhé části se práce zaměřuje na rychlou vizualizaci a prohledávání mnohadimenziálních dat pocháze- jících z jednobuněčné průtokové cytometrie. Ze samoorganizačních map odvozuje rychlé metody pro analýzu dat, a využívá je jako základ pro nový vizualizační algoritmus. Podobný přístup zpracování dat je nakonec využit pro vysoce interaktivní prohledávání multimediálních dat. Hlavní příspěvky a výsledky práce se sestávají z pokroku v opti- malizaci metod pro dotazování chemických dat implementovaných v databázi Sachem, federovaného rozhraní pro Sachem založeného na jazyce SPARQL které poskytuje pod- poru pro heterogenního dotazování, algoritmu EmbedSOM pro redukci dimenzionality, návrhu a implementace specifických analytických nástrojů pro průtokovou a hmotnos- tní cytometrii odvozených od algoritmu EmbedSOM, a návrhu a implementace...
This thesis studies, implements and experiments with specific application-oriented approaches for exploring and querying multi-dimensional datasets. The first part of the thesis scrutinizes indexing of the complex space of chemical compounds, and details a design of high-performance retrieval system for small molecules. The resulting system is then utilized within a wider context of federated search in heterogeneous data and metadata related to the chemical datasets. In the second part, the thesis focuses on fast visualization and exploration of many-dimensional data that originate from single- cell cytometry. Self-organizing maps are used to derive fast methods for analysis of the datasets, and used as a base for a novel data visualization algorithm. Finally, a similar approach is utilized for highly interactive exploration of multimedia datasets. The main contributions of the thesis comprise the advancement in optimization and methods for querying the chemical data implemented in the Sachem database cartridge, the federated, SPARQL-based interface to Sachem that provides the heterogeneous search support, dimensionality reduction algorithm EmbedSOM, design and implementation of the specific EmbedSOM-backed analysis tool for flow and mass cytometry, and design and implementation of the multimedia...
