dc.contributor.advisor | Bednárek, David | |
dc.creator | Kratochvíl, Miroslav | |
dc.date.accessioned | 2019-06-07T09:51:52Z | |
dc.date.available | 2019-06-07T09:51:52Z | |
dc.date.issued | 2019 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/106081 | |
dc.description.abstract | Structure search is one of the valuable capabilities of small-molecule databases. Available chemical cartridges typically provide acceptable search performance for processing user queries, but do not scale satisfactorily with dataset size. This thesis presents Sachem, a new open-source chemical car- tridge that implements a novel method of substructure search, which em- ploys newly designed fingerprints stored in inverted indexes. The perfor- mance of the method was assessed on datasets that contain tens of mil- lions of molecules. Comparison of the performance to that of other available cartridges revealed improvements in overall search speed, scaling potential and screen-out efficiency. Additionally, the thesis presents an application of Sachem; a SPARQL service that augments existing semantic services by including results of substructure and similarity searches in small-molecule databases. The result offers new possibilities for simpler querying of the interoperable heterogeneous data sources. 1 | en_US |
dc.description.abstract | Vyhledávání podstruktur je jednou z nejcennějších schopností databází malých molekul. Dostupné databáze typicky poskytují akceptovatelně rychlé zpracování uživatelských dotazů, ale nejsou dostatečně škálovatelné s ve- likostí uložených dat. V této práci je popsána nová open-source databáze Sachem, která implementuje novoý způsob vyhledávání podstruktur využí- vající nově sestavené otisky chemických molekul uložené v invertovaných databázových indexech. Rychlost vyhledávání v této databázi byla měřena na datových sadách obsahujících desítky milionů molekul. Porovnání výkon- nosti s jinými dostupnými databázemi potvrdilo zlepšení v celkové rychlosti hledání, možností škálování výkonnosti i v efektivitě prosívání dat. Práce dále popisuje aplikaci databáze Sachem, službu založenou na dotazovacím jazyku SPARQL, která rozšiřuje existující sémantické datové služby o možnost zahrnout v dotazech i chemicky relevantní strukturní a podobnostní podmínky. Výsledek nabízí nové, jednodušší možnosti dotazování v dostupných heterogenních da- tových zdrojích. 1 | cs_CZ |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | vyhledávání podstruktur | cs_CZ |
dc.subject | chemoinformatika | cs_CZ |
dc.subject | databáze | cs_CZ |
dc.subject | invertované indexy | cs_CZ |
dc.subject | substructure search | en_US |
dc.subject | cheminformatics | en_US |
dc.subject | databases | en_US |
dc.subject | inverted indexes | en_US |
dc.title | Accelerating structure search in small-molecule databases | en_US |
dc.type | rigorózní práce | cs_CZ |
dcterms.created | 2019 | |
dcterms.dateAccepted | 2019-05-17 | |
dc.description.department | Department of Software Engineering | en_US |
dc.description.department | Katedra softwarového inženýrství | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 212273 | |
dc.title.translated | Akcelerace strukturního vyhledávání v databázích malých molekul | cs_CZ |
dc.contributor.referee | Hoksza, David | |
thesis.degree.name | RNDr. | |
thesis.degree.level | rigorózní řízení | cs_CZ |
thesis.degree.discipline | Teoretická informatika | cs_CZ |
thesis.degree.discipline | Theoretical Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
uk.thesis.type | rigorózní práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Katedra softwarového inženýrství | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Department of Software Engineering | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Teoretická informatika | cs_CZ |
uk.degree-discipline.en | Theoretical Computer Science | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Prospěl/a | cs_CZ |
thesis.grade.en | Pass | en_US |
uk.abstract.cs | Vyhledávání podstruktur je jednou z nejcennějších schopností databází malých molekul. Dostupné databáze typicky poskytují akceptovatelně rychlé zpracování uživatelských dotazů, ale nejsou dostatečně škálovatelné s ve- likostí uložených dat. V této práci je popsána nová open-source databáze Sachem, která implementuje novoý způsob vyhledávání podstruktur využí- vající nově sestavené otisky chemických molekul uložené v invertovaných databázových indexech. Rychlost vyhledávání v této databázi byla měřena na datových sadách obsahujících desítky milionů molekul. Porovnání výkon- nosti s jinými dostupnými databázemi potvrdilo zlepšení v celkové rychlosti hledání, možností škálování výkonnosti i v efektivitě prosívání dat. Práce dále popisuje aplikaci databáze Sachem, službu založenou na dotazovacím jazyku SPARQL, která rozšiřuje existující sémantické datové služby o možnost zahrnout v dotazech i chemicky relevantní strukturní a podobnostní podmínky. Výsledek nabízí nové, jednodušší možnosti dotazování v dostupných heterogenních da- tových zdrojích. 1 | cs_CZ |
uk.abstract.en | Structure search is one of the valuable capabilities of small-molecule databases. Available chemical cartridges typically provide acceptable search performance for processing user queries, but do not scale satisfactorily with dataset size. This thesis presents Sachem, a new open-source chemical car- tridge that implements a novel method of substructure search, which em- ploys newly designed fingerprints stored in inverted indexes. The perfor- mance of the method was assessed on datasets that contain tens of mil- lions of molecules. Comparison of the performance to that of other available cartridges revealed improvements in overall search speed, scaling potential and screen-out efficiency. Additionally, the thesis presents an application of Sachem; a SPARQL service that augments existing semantic services by including results of substructure and similarity searches in small-molecule databases. The result offers new possibilities for simpler querying of the interoperable heterogeneous data sources. 1 | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra softwarového inženýrství | cs_CZ |
thesis.grade.code | P | |