High-performance exploration and querying of selected multi-dimensional spaces in life sciences
Vysoce výkonné prohledávání a dotazování ve vybraných mnohadimenzionálních prostorech v přírodních vědách
dissertation thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/124231Identifiers
Study Information System: 164334
Collections
- Kvalifikační práce [11330]
Author
Advisor
Referee
Glaab, Enrico
Svozil, Daniel
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Software Systems
Department
Department of Software Engineering
Date of defense
15. 12. 2020
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Pass
Keywords (Czech)
vysokodimenzionální data, vyhledávání informací, chemoinformatika, redukce dimenzionality, cytometrie, vyhledávání multimédiíKeywords (English)
high-dimensional data, information retrieval, cheminformatics, dimensionality reduction, cytometry, multimedia retrievalTato práce studuje, implementuje a experimentuje se specifickými, aplikačně orien- tovanými přístupy pro prozkoumávání a dotazování multimediálních dat. První část práce zkoumá indexování komplexního prostoru chemických sloučenin a popisuje návrh vysoce výkonného systému pro dotazování v databázích malých molekul. Výsledný sys- tém je následně využit v širším kontextu federovaného vyhledávání v heterogenních dat- ech a metadatech souvisejících s chemickými informačními zdroji. V druhé části se práce zaměřuje na rychlou vizualizaci a prohledávání mnohadimenziálních dat pocháze- jících z jednobuněčné průtokové cytometrie. Ze samoorganizačních map odvozuje rychlé metody pro analýzu dat, a využívá je jako základ pro nový vizualizační algoritmus. Podobný přístup zpracování dat je nakonec využit pro vysoce interaktivní prohledávání multimediálních dat. Hlavní příspěvky a výsledky práce se sestávají z pokroku v opti- malizaci metod pro dotazování chemických dat implementovaných v databázi Sachem, federovaného rozhraní pro Sachem založeného na jazyce SPARQL které poskytuje pod- poru pro heterogenního dotazování, algoritmu EmbedSOM pro redukci dimenzionality, návrhu a implementace specifických analytických nástrojů pro průtokovou a hmotnos- tní cytometrii odvozených od algoritmu EmbedSOM, a návrhu a implementace...
This thesis studies, implements and experiments with specific application-oriented approaches for exploring and querying multi-dimensional datasets. The first part of the thesis scrutinizes indexing of the complex space of chemical compounds, and details a design of high-performance retrieval system for small molecules. The resulting system is then utilized within a wider context of federated search in heterogeneous data and metadata related to the chemical datasets. In the second part, the thesis focuses on fast visualization and exploration of many-dimensional data that originate from single- cell cytometry. Self-organizing maps are used to derive fast methods for analysis of the datasets, and used as a base for a novel data visualization algorithm. Finally, a similar approach is utilized for highly interactive exploration of multimedia datasets. The main contributions of the thesis comprise the advancement in optimization and methods for querying the chemical data implemented in the Sachem database cartridge, the federated, SPARQL-based interface to Sachem that provides the heterogeneous search support, dimensionality reduction algorithm EmbedSOM, design and implementation of the specific EmbedSOM-backed analysis tool for flow and mass cytometry, and design and implementation of the multimedia...