Modelování molekulární podobnosti pomocí fragmentů
Modeling of fragment-based molecular similarity
bakalářská práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/117008Identifikátory
SIS: 209446
Kolekce
- Kvalifikační práce [10512]
Autor
Vedoucí práce
Oponent práce
Mráz, František
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
5. 9. 2019
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
cheminformatika, molekulární reprezentace, virtuální screeningKlíčová slova (anglicky)
cheminformatics, molecular representation, virtual screeningNedílnou součástí vývoje léčiv je tzv. virtuální screening, jehož cílem je počítačová identifikace biologicky aktivních molekul. Jednou z variant virtuálního screeningu je li- gandový virtuální screening, jenž je založen na využití známých biologicky aktivních molekul a podobnostního vyhledávání. Molekulu lze reprezentovat jako graf, molekulární podobnost lze pak modelovat na základě stejných fragmentů (podgrafů) mezi dvěma mole- kulami. Běžnou praxí je fragmenty hashovat do omezeného číselného intervalu a používat tato hashovaná čísla pro výpočet molekulární podobnosti. Při tomto hashování ovšem může dojít ke kolizím. Obecně jsou kolize považovány za nežádoucí, neb dochází ke ztrátě informace o molekule. Našim cílem bylo vyzkoušet, zda-li mohou kolize fragmentů vést k lepším výsledkům. Za tímto účelem jsme navrhli několik podobnostních modelů postave- ných na fragmentech. Pro účely vyhodnocení jsme implementovali testovací prostředí, jenž umožňuje snadné testování a vyhodnocení různých modelů. Z provedených experimentů plyne, že vybrané kolize vedou k lepším výsledkům, než jsou výsledky běžně používaných metod. Dokonce existují kolize, které v určitém modelu dosahují AUC přesahující 0.99. 1
Virtual screening is a part of computer-aided drug design, which aims to identify biologically active molecules. The ligand-based virtual screening employs known bio- logically active molecules and similarity search. A common approach to computation of molecular similarity is to utilize molecular fingerprints. Hashed structural molecular fingerprints hash fragments (subgraphs) of molecular graphs into a bit string reducing the problem of molecular similarity to the bit string similarity. Due to the hashing two distinct fragments may collide, which causes information loss. For this reason collisions are considered unwanted and they are generally believed to decrease a performance. Our goal was, contrary to the general believe, test whether collisions can have positive impact on the performance. For this purpose we designed several similarity models based on fragments. In order to make testing and evaluation easy we implemented testing environ- ment. Results of our experiments prove that some collisions can outperform commonly used methods. Moreover some collisions in a specific model can lead to a performance of AUC over 0.99. 1