Representation of chemical compounds and its utilization in similarity search
Reprezentace chemických sloučenin a její využití v podobnostním vyhledávání
dissertation thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/111326Identifiers
Study Information System: 150097
Collections
- Kvalifikační práce [11325]
Author
Advisor
Referee
Brezovský, Jan
Modrák, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Software Engineering
Date of defense
18. 9. 2019
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Pass
Keywords (Czech)
molekulární podobnost, ligand-based virtual screening, benchmarking, molekulární fingerprintyKeywords (English)
molecular similarity, ligand-based virtual screening, benchmarking, molecular fingerprintsBěžnou součástí vývoje léčiv je virtuální screening, který využívá metod podobnostního modelování a vyhledávání. Tyto metody většinou nejsou specifické pro daný makromolekulární cíl, nabízí se tedy možnost implementace nových metod, jenž by se byly schopné na daný cíl adaptovat. Nové metody však trpí dalšími problémy jako je dostupnost či neodpovídajícím benchmarking. Hlavní potíže s benchmarkingem spočívají ve špatném výběru referenčních metod, nedostatečné reprodukovatelnosti výsledků a použití nestandardních datových sad pro testování. Tyto potíže jsou navíc běžné i u benchmarkových studií, jenž se zaměřují na standardizované porovnání metod. Z těchto důvodů nové metody nejsou schopny získat důvěru doménových expertů, kteří tak často pracují se staršími metodami. V této práci se zaměřujeme na výše uvedené problémy. Nejprve představíme nové adaptivní metody metody pro virtuální screening. Dále představíme námi navržený nástroj pro virtuální screening, jenž by měl zlepšit dostupnost nově navržených metod. Nakonec představíme naši benchmarkovací platformu a kolekci datových sad, jenž je použitelná pro reprodukovatelné hodnocení metod virtuálního screeningu.
Virtual screening is a well-established part of computer-aided drug design, which heavily employs similarity search and similarity modeling methods. Most of the popular methods are target agnostic, leaving space for design of new methods that would take into account the specifics of the particular molecular target. Additionally, newly developed methods suffer from two related issues: benchmarking and availability. Benchmarking in the domain often suffers from the use of inappropriate reference methods, lack of reproducibility, and the use of nonstandard benchmark datasets. Although there have been several benchmarking studies in the domain that aim at addressing these issues, mainly by offering a standardized comparison, they often suffer from similar drawbacks. For these reasons, new methods fail to gain trust and therefore fail to become a part of the standard toolbox, which thus consists mostly of older methods. In this work, we address the above-described issues. First, we introduce new adaptive methods for virtual screening. Then, to make our and other newly developed methods readily available, we have designed and implemented a virtual screening tool. To address the benchmarking issue, we have compiled a publicly available collection of benchmarking datasets and proposed a platform offering a...