Prediction of phosphorylation sites using 3D protein structures
Predikce fosforylačních míst z 3D struktur proteinů
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/206994Identifikátory
SIS: 277813
Kolekce
- Kvalifikační práce [21624]
Autor
Vedoucí práce
Konzultant práce
Hoksza, David
Oponent práce
Bednář, David
Fakulta / součást
Přírodovědecká fakulta
Obor
Bioinformatika
Katedra / ústav / klinika
Katedra buněčné biologie
Datum obhajoby
3. 2. 2026
Nakladatel
Univerzita Karlova, Přírodovědecká fakultaJazyk
Angličtina
Známka
Velmi dobře
Klíčová slova (česky)
postranslační modifikace, fosforylace, predikce, strojové učeníKlíčová slova (anglicky)
postranslational modifications, phosphorylation, prediction, machine learningFosforylace reguluje funkci proteinůa řadu procesů v organismech, avšak experimentální mapování fosforylačních míst zůstává neúplné a technicky náročné. V rámci této práce jsme natrénovali klasifikátory strojového učení, které integrují lokální sekvenci se strukturními deskriptory odvozenými z modelů AlphaFoldu. Pomocí 42 tisíc proteinů počítáme solvent accessibility, hustotu sbalenosti proteinu, dihedrální úhly, sekundární strukturu a extrahujeme pLDDT hodnoty, a poté trénujeme klasifikátory LightGBM. Na testovací sadě přidání strukturních rysů k sekvenčním mírně zlepšuje metriky AUROC, AUPRC, F1-score a MCC. Oddělené modely vykazují vyšší výkonnost pro Ser/Thr než pro Tyr. Analýza důležitosti deskriptorů naznačuje, že solvent acces sibility, lokální sbalenost a flexibilita jsou podpůrnými prediktory pravděpodobnosti fosforylačního místa. Benchmarking na nezávislém souboru dat z literatury potvrzuje konkurenceschopný výkon v některých metrikách ve srovnání s jinými prediktory. Naše výsledky podporují přínos levných strukturních deskriptorů pro obecnou predikci fos forylačních míst a poskytují reprodukovatelný základ pro budoucí kinázově specifická rozšíření modelu.
Phosphorylation regulates protein function and many processes in organisms, yet experimentally mapping phosphosites remains incomplete and technically challenging. Within this thesis we developed machine-learning predictors that integrate local se quence context with residue-level structural descriptors derived from AlphaFold models. Using 42k proteins, we computed solvent accessibility, packing density, dihedral angles, secondary structure, and extracted pLDDT values, and train LightGBM classifiers. On a cluster-split test set, adding structure to sequence features slightly improves AUROC, AUPRC, F1-score, and MCC metrics. Separate models reveal stronger performance for Ser/Thr than Tyr sites. Feature-importance analysis implicates solvent exposure, burial anddisorderstatus as supporting predictors of phosphosite likelihood. Benchmarking on 2 independent datasets confirms competitive performance vs. other predictors in some metrics. Our results support the value of inexpensive structural descriptors for general phosphosite prediction and provide a reproducible baseline for future kinase-specific extensions.
