Enzyme optimization using sequence homology and machine learning
Optimalizace enzymů ze sekvenční homologie za pomoci strojového učení
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/175718Identifikátory
SIS: 243002
Kolekce
- Kvalifikační práce [20084]
Autor
Vedoucí práce
Oponent práce
Hoksza, David
Fakulta / součást
Přírodovědecká fakulta
Obor
Bioinformatika
Katedra / ústav / klinika
Katedra buněčné biologie
Datum obhajoby
7. 9. 2022
Nakladatel
Univerzita Karlova, Přírodovědecká fakultaJazyk
Angličtina
Známka
Dobře
Ve farmaceutickém výzkumu a vývoji hrají enzymy důležitou roli při syntéze léků a molekul souvisejících s léky. Pro vyšší účinnost a zvýšenou produkci je důležité optimalizovat výtěžek těchto enzymů, což je úkol často řešený proteinovým inženýrstvím a designem. Tento proces optimalizace enzymu se však může stát zdlouhavým s obrovskými možnostmi mutací pro každý jednotlivý protein. Ke zlepšení procesu optimalizace enzymů lze použít sekvenční homologii a metody strojového učení. Ty výrazně snižují manuální úsilí při přepracování proteinů a mohou pomoci při hledání nejvhodnějšího enzymu pro daný úkol, čímž se zvyšuje efektivita celého procesu vývoje léčiv. S ohledem na tento cíl tato práce shrnuje výběr existujících metod a jejich možné aplikace při optimalizaci enzymů. Testování dvou prediktivních modelů s různou složitostí na 4 souborech dat ve snaze optimalizovat absorpci, enantioselektivitu, nebo teplotní stabilitu zjistilo pouze mírnou korelaci mezi skutečnými cílovými hodnotami a jejich předpokládanými hodnotami: průměr Pearsonova R 0,20775 a 0,5188. Porovnání pravděpodobnostních vzorů vložení proteinových sekvencí vedlo ke korelačnímu skóre 0,815 se substituční maticí BLOSUM62, což potvrzuje intuici jazykového modelu o přirozené frekvenci různých typů mutací. Zatímco výsledky prediktivních...
In pharmaceutical research and development, enzymes play an important role in the synthesis of drugs and drug-related molecules. For higher efficiency and increased production, it is important to optimize the yield of these enzymes, a task often addressed by protein engineering and design. This process of enzyme optimization however can become tedious with the vast options of mutations for each single protein. To improve the process of enzyme optimization, sequence homology and machine learning methods can be used. These greatly reduce the manual effort of protein redesign and can assist in finding the most fit enzyme for the given task, increasing the efficiency of the overall drug development pipeline. With this aim in mind this thesis summarizes a selection of existing methods and their possible application to enzyme optimization. Testing two predictive models with varying complexity on 4 datasets in an attempt to optimize absorption, enantioselectivity, or thermostability found only a modest correlation between actual target values and their predicted values: mean Pearson's R 0.20775 and 0.5188. Comparing probability patterns of protein sequence embeddings led to a 0.815 correlation score with the BLOSUM62 substitution matrix, confirming the language model's intuition about natural frequency of...