Quantitative structure-activity relationship and machine learning
Quantitative structure-activity relationship a strojové učení
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/181235Identifikátory
SIS: 241584
Kolekce
- Kvalifikační práce [21495]
Autor
Vedoucí práce
Oponent práce
Svozil, Daniel
Fakulta / součást
Přírodovědecká fakulta
Obor
Fyzikální chemie se specializací Modelování chemických vlastností nanostruktur a biostruktur
Katedra / ústav / klinika
Katedra fyzikální a makromol. chemie
Datum obhajoby
30. 5. 2023
Nakladatel
Univerzita Karlova, Přírodovědecká fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
QSAR, strojové učení, hluboké učení, molekulární deskriptoryKlíčová slova (anglicky)
QSAR, machine learning, deep learning, molecular descriptorsQuantitative structure-activity relationship (QSAR) výpočetní metoda nám umožňuje zkoumat vztah mezi chemickou strukturou molekul a jejich chemi- ckými a biologickými vlastnostmi. Pro tvorbu QSAR modelů lze s výhodou použít metody strojového učení, jakými jsou například hluboké neuronové sítě. V této práci jsme vytvořili workflow (pipeline) pro trénování QSAR modelů založených na strojovém učení, které mohou předpovídat toxicitu molekul. Dále zkoumáme vliv molekulární reprezentace na kvalitu předpovědí modelu. Na datasetech Tox21 a Ames Mutagenicity jsou použity jak naše modely hlubokého učení, tak i tradiční modely strojového učení. Jejich kvalita je srovnána s nedávno pub- likovaným modely pro predikci toxicity pomocí metriky AUC-ROC a v určitých ohledech vykazuje zlepšení oproti publikovaným modelům. Klíčová slova: QSAR, strojové učení, hluboké učení, molekulární deskriptory 1
Quantitative structure-activity relationship (QSAR) computational methods allow us to examine the relationship between the chemical structure of molecules and their chemical or biological properties. For QSAR calculations, widely used machine learning methods, such as deep learning models, can be used. In this work, we construct a pipeline for training QSAR machine-learning models that can predict molecular toxicity. Furthermore, we investigate the effect of molecular representation on model performance. Both our deep learning mod- els and traditional machine learning models are employed on Tox21 and Ames Mutagenicity datasets. Their performance is evaluated against recently published models for toxicity prediction using the AUC-ROC metric and, regarding certain toxicity targets, shows improvement over these models. Keywords: QSAR, machine learning, deep learning, molecular descriptors 1
