Similarity Search in Protein Structure Databases
Podobnostní vyhledávání v databázích proteinových struktur
dizertační práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/42007Identifikátory
SIS: 57798
Kolekce
- Kvalifikační práce [11242]
Autor
Vedoucí práce
Oponent práce
Porto, Markus
Svozil, Daniel
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
24. 9. 2012
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Prospěl/a
Klíčová slova (česky)
databáze proteinových struktur, podobnostní vyhledávání, metrické přístupové metodyKlíčová slova (anglicky)
protein structure databases, similarity search, metric access methodsProteiny patří mezi nejdůležitějších biopolymery, nebot' v organismu zastáva- jí nejrůznější životně důležité funkce. Jejich funkční rozmanitost je umožněna především jejich velkou strukturní rozmanitostí. Navíc se ukazuje, že proteiny sdílející podobnou strukturu sdílí také jiné vlastnosti (např. funkci, evoluční původ, atd.). Proto je studiu proteinových struktur a možnosti identifikovat podobné struktury věnována taková pozornost. V této práci představujeme systém umožňující podobnostní vyhledávání v databázích proteinových struktur. Tento systém, pro danou dotazovou struk- turu, vyhledá v databáze ty struktury, které jsou dotazu strukturně podobné. Systém se skládá z několika klíčových částí. Byla navržena vlastní podob- nostní míra umožňující měřit podobnost mezi dvojicí proteinových struk- tur. Speciálně pro tuto míru byla vytvořena přístupová metoda založená na metrické přístupové metodě LAESA. Přístupová metoda umožňuje hle- dat podobné struktury mnohem rychleji, než by to bylo možné sekvenčním procházením databáze. Pro dosažení dalšího urychlení byly obě části parale- lizovány, přičemž se podařilo dosáhnout téměř lineárního zrychlení. Poslední částí je...
Proteins are one of the most important biopolymers having a wide range of functions in living organisms. Their huge functional diversity is achieved by their ability to fold into various 3D structures. Moreover, it has been shown that proteins sharing similar structure often share also other properties (e.g, a biological function, an evolutionary origin, etc.). Therefore, protein structures and methods to identify their similarities are so widely studied. In this thesis, we introduce a system allowing similarity search in pro- tein structure databases. The system retrieves, given a query structure, all database structures being similar to the query structure. It employs several key components. We have introduced a novel similarity measure assigning similarity scores to pairs of protein structures. We have designed specific access method based on LAESA metric indexing and using the proposed measure. The access method allows to search similar structures more effi- ciently than when a sequential scan of a database is employed. To achieve further speedup, the measure and the access method have been parallelized, resulting in almost linear speedup with the respect to the number of available cores. The last component is a web user interface that allows to accept a query structure and to present a list of...