Improving and extending the multiple sequence alignment suite PRALINE
Improving and extending the multiple sequence alignment suite PRALINE
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/31146Identifikátory
SIS: 75903
Kolekce
- Kvalifikační práce [10715]
Autor
Vedoucí práce
Oponent práce
Petříčková, Zuzana
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwaru a výuky informatiky
Datum obhajoby
24. 5. 2010
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Cílem této práce bylo zkoumání možností vylepšení souboru programů pro zarovnávání mnoha sekvencí PRALINE. Nejprve je prezentován přehled současných metod pro řešení problému zarovnávání více sekvencí (multiple sequence alignment) s přihlédnutím k variantám reprezentace jádra zarovnání - mezivýsledku používaných algoritmů. PRALINE byla rozšířena o zarovnávání uživatelsky zadaných profilů. Uživatelem zadaný profil je v tomto rozšíření použit v pokročilejši fázi progresivního zarovnávání, jako by se jednalo o mezivýsledek předchozích kroků. Toto rozšíření bylo otestováno v typickém případu užití. Přidali jsme 2 nové protokoly pro zarovnávání založené na skrytých Markovových řetězcích (HMM) a otestovali kvalitu jejich výsledků. Protokol HMMGUIDE vytvoří pro každou sekvenci preprofil skládájící se ze segmentů ostatních sekvencí s vysokou lokální podobností. Z preprofilu HMMER vygeneruje pro každou sekvenci HMM a PRC zjistí stupeň podobnosti mezi dvojicemi HMM. Protokol pak progresivně zarovnává sekvence, jejichž HMM byly nejpodobnější. Protokol PRCALIGN postupuje obdobně, ale pro zarovnání použije výstup z PRC, sekvence tedy zarovná podle nejlepšího zarovnání HMM. Přestože protokoly nedokončily všechny testy úspěšně, výsledky ukazují významné zlepšení oproti původní metodě.
The aim of this work is to study potential improvements in the core routines of multiple sequence alignment suite PRALINE. A general overview of multiple sequence alignment methods used with emphasis on representation of the alignment core is given. A new option for aligning sequence profiles was implemented and its usefulness assessed. This option allows a user to input a profile which is used in an advanced phase of the progressive protocol as if it was a result of the previous steps. Two new protocols using profile Hidden Markov models (HMM) and their alignment were implemented and tested. The HMMGUIDE protocol creates for each sequence a preprofile consisting of segments of other sequences with high local similarity. HMM is generated from each preprofile by HMMER, and alignment of every pair is scored by PRC. The protocol then progressively aligns the sequence whose HMMs achieved the best score. The PRCALIGN protocol works similarly but aligns the sequences according to the best alignment of the HMMs. While not all test alignments were finished successfully for both protocols, the results constitute a statistically significant improvement over the original PRALINE protocol.