Predicting Protein Thermostability With a Focus on Antibodies
Predikce termostability proteinů se zaměřením na protilátky
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/199616Identifikátory
SIS: 268142
Kolekce
- Kvalifikační práce [21515]
Autor
Vedoucí práce
Oponent práce
Dehaen, Wim
Fakulta / součást
Přírodovědecká fakulta
Obor
Bioinformatika
Katedra / ústav / klinika
Katedra buněčné biologie
Datum obhajoby
6. 6. 2025
Nakladatel
Univerzita Karlova, Přírodovědecká fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
termostabilita protilátek, jazykové modely proteinů, zero-shot predikce, ProteinGym, učení s učitelemKlíčová slova (anglicky)
antibody thermostability, protein language models, zero-shot prediction, ProteinGym, supervised learningTermostabilita je klíčová pro úspěšné inženýrství proteinů a vývoj terape- utických protilátek; přesná predikce urychluje identifikaci stabilních proteinů a návrh robustních variant. Tato diplomová práce hodnotí přístupy strojo- vého učení k predikci termostability v režimu zero-shot i s učením s učitelem, se zaměřením na protilátky. Na veřejné sadě AbProp, která obsahuje 483 pro- tilátek s teplotami tání měřenými metodou diferenciální skenovací fluorimet- rie (DSF), překonáváme dosavadní nejlepší výsledky; v režimu zero-shot do- sahujeme Spearmanovy korelace 0,49 a s učením s učitelem 0,69. Zjišťujeme, že jazykové modely specifické pro protilátky v režimu zero-shot nepřekoná- vají obecné modely, což může být způsobeno širším rozdělením hodnot ter- mostability u protilátek, vyplývajícím z pravděpodobně slabšího evolučního tlaku na stabilitu a vysoké variability dané jejich kombinatorickým původem, V(D)J rekombinací, a somatickými hypermutacemi. Dále vyhodnocujeme ge- neralizaci v režimu zero-shot na benchmarku ProteinGym a ukazujeme, že naše modely dosahují konkurenceschopných výsledků i na nesouvisejících pro- teinových doménách. Analyzujeme také sekvenční pozice přispívající k pre- dikci s učitelem a pozorujeme, že protilátky s lehkými řetězci typu lambda jsou v průměru termostabilnější než ty s řetězci...
Thermostability is key to successful protein engineering and therapeutic antibody development; accurate prediction accelerates the identification of stable proteins and the design of robust variants. This thesis evaluates zero- shot and supervised machine learning approaches for thermostability predic- tion, with a focus on antibodies. We achieve state-of-the-art performance on the public AbProp dataset-483 antibodies with melting temperatures measured by differential scanning fluorimetry (DSF)-reaching a Spearman correlation of 0.49 in the zero-shot setting and 0.69 with supervised learning. We find that antibody-specific language models do not outperform general models in the zero-shot setting, which may be due to a wider distribution of thermostability in antibodies, resulting from possibly weaker evolutionary pressure for stability and the high variability introduced by their combinato- rial V(D)J origin and somatic hypermutation. We further evaluate zero-shot generalization on the ProteinGym benchmark, showing that our models per- form competitively on unrelated protein domains. We also analyze sequence positions contributing to supervised prediction and observe that antibodies with lambda light chains are, on average, more thermostable than those with kappa chains. Our results underscore the...
