Ambiguous representation of genetic variants in the VCF format
Ambivalentní reprezentace genetických variant ve formátu VCF
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/119571Identifikátory
SIS: 220657
Kolekce
- Kvalifikační práce [19109]
Autor
Vedoucí práce
Oponent práce
Fišer, Karel
Fakulta / součást
Přírodovědecká fakulta
Obor
Bioinformatika
Katedra / ústav / klinika
Katedra buněčné biologie
Datum obhajoby
8. 7. 2020
Nakladatel
Univerzita Karlova, Přírodovědecká fakultaJazyk
Angličtina
Známka
Výborně
Variant call format (VCF) je formát souborů používaný k reprezentaci a ukládání informací o variantách. Genetické varianty ve VCF mohou být reprezentovány více způsobů, protože specifikace VCF umožňuje nejednoznačnost, která může nastat kvůli různým variant call pipelinům nebo rozdílům v alignmentech sekvencí. Nejednoznačnosti narušují srovnávání souborů ve VCF a jejich variant, což vede ke komplikacím při další analýze variant. Tato práce zkoumá rozdíly v reprezentaci genetických variant, které se mohou vyskytnout, a také jejich pravděpodobné příčiny a dopady na další analýzu. Dále je zkoumána normalizace souborů VCF a je uveden algoritmus pro atomizaci a deatomizaci souborů VCF. Klíčová slova: VCF, variant call format, ambivalentní reprezentace variant, srovnání variantů, atomizace variantů, deatomizace variantů
The variant call format (VCF) is a file format used to represent and store information about DNA variation. Genetic variants in VCF can be represented in multiple ways because the VCF specification allows for ambiguity, which can arise because of different variant calling pipelines or differences in sequence alignment. Ambiguities interfere with the comparison of VCF files and the variants therein, leading to complications in further analysis of variants. This thesis explores the differences in the representation of genetic variants that can occur, as well as their causes and impacts on further analysis. Furthermore, the normalization of VCF files is addressed and an algorithm for the atomization and deatomization of VCF files is shown. Keywords: VCF, variant call format, ambiguous variant representation, variant comparison, variant atomization, variant deatomization