Limitations of variant consequence predictors
Omezení predikčních programů pro určování důsledků genomických variant
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/101416Identifiers
Study Information System: 200276
Collections
- Kvalifikační práce [20305]
Author
Advisor
Referee
Kolář, Michal
Faculty / Institute
Faculty of Science
Discipline
Bioinformatics
Department
Department of Cell Biology
Date of defense
10. 9. 2018
Publisher
Univerzita Karlova, Přírodovědecká fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
programy pro určovánı́ důsledků variant, funkčnı́ anotace, ANNO- VAR, VEP, Haplosaurus, BCFTools, csq, SnpEff, srovnánı́ programůKeywords (English)
variant consequence predictors, functional annotation, ANNOVAR, VEP, Haplosaurus, BCFtools, csq, SnpEff, predictors comparisonDíky mnohým rozsáhlým sekvenačním projektům se množství nalezených genomických variant stále zvyšuje. Klíčovým krokem v analýze těchto dat je jejich funkční ano- tace, jež pomáhá varianty kategorizovat, filtrovat a prioritizovat pro další výzkum. Tato práce seznamuje s pěti běžně používanými programy pro určování důsledků vari- ant, poskytuje rady, jak je používat, a stručně představuje algoritmy, které používají. Mimo to jsou zde popsány různé datové formáty, genomové anotace a lidský referenční genom. Správnost reference je velice důležitá, neboť na ní spoléhají všechny programy. Práce upozorňuje na určité situace, ve kterých se výsledky z různých programů mohou navzájem lišit. Pro všechny testy byla použita Ensembl genová anotace (release 92) a referenční genom GRCh38.
Thanks to numerous large-scale sequencing projects, the number of discovered genomic variants is increasing. The key step in analyzing the variant data is the functional annotation, since it helps researchers and clinicians to categorize, filter and prioritize the variants for further research. This thesis discusses five commonly-used variant consequence predictors, offers advice on how to use them and briefly goes through the algorithms they employ. Moreover, various data formats as well as the human reference genome and different genome annotations are described in the thesis. The correctness of the reference is of great importance as all the predictors rely on it. This thesis highlights some situations in which the results given by different predictors can vary. All the tests were made using the Ensembl gene annotation (release 92) and the GRCh38 reference assembly.