Detekce fosforilačních vazebných míst pomoci proteinových jazykových modelů
Detection of phosphorylation binding sites using protein language models
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/202793Identifikátory
SIS: 281867
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Pilát, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Umělá inteligence
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
8. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Velmi dobře
Klíčová slova (česky)
bioinformatika|strojové učení|proteinová sekvence|fosforylaceKlíčová slova (anglicky)
bioinformatics|machine learning|protein sequence|phosphorylationFosforylácia je jedným z najrozšírenejších typov posttranslačných modifikácií (PTM). Detekcia fosforylačných miest je užitočná pre mnohé následné úlohy v bunkovej biológii a medicíne, napríklad v onkológii. Súčasné experimentálne metódy detekcie sú však často nákladné, a to z hľadiska financií aj času. Predchádzajúce nástroje na predikciu fosforylácie využívali väčšinou metódy založené na oknách, ktoré nemusia byť schopné zachytiť závislosti medzi vz- dialenými zvyškami. Našim cieľom bolo využiť informačne bohaté vloženia z najmodernejších PLM (predtrénovaných jazykových modelov), aby sme vytvo- rili robustnejšiu metódu predikcie fosforylácie, ktorá by zlepšila výsledky iných nedávnych prístupov založených na PLM, ako je napríklad UniPTM. Skúmali sme rôzne sieťové architektúry a bázové modely. Dosiahli sme zlepšenie vo všetkých metrikách pre serín, vrátane priemerného zvýšenia AUPRC o 16 v porovnaní s modelom UniPTM, ktorý bol trénovaný na našom dátovom súbore. Nakoniec sme vykonali analýzu dátového súboru, vrátane analýzy neusporiadanosti fosforylačných miest, ako aj analýzy údajov o kinázach.
Phosphorylation Site Prediction using Protein Language Models Phosphorylation is one of the most widely studied types of post-translational modifications (PTMs). Detection of phosphorylation sites is useful for many downstream tasks in cellular biology and medicine, for example, in oncology. However, current experimental detection methods, such as mass spectrometry or immunoprecipitation, are often expensive, both in terms of cost and time. Previous phosphorylation prediction tools used mostly window-based meth- ods, which may be unable to capture long-distance dependencies between residues. Our goal was to leverage information-rich embeddings from state-of-the-art PLMs, in order to create a more robust phosphorylation prediction method, improving upon the results of other recent PLM-based approaches, such as UniPTM. Our data set was obtained from PhosphoSitePlus®. Redundant sequences were pruned via clustering, and the remainder was divided into stratified folds for 5-fold cross-validation. We have investigated various network architectures, base embedding mod- els, training methods, as well as using kinase information in the prediction. We have achieved an improvement on all metrics for serine, including an average increase of 16% to AUPRC, and a similar performance on tyrosine and threo- nine, compared...
