Indel calling from NGS data
Určování inzercí a delecí z NGS dat
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/203894Identifiers
Study Information System: 255571
Collections
- Kvalifikační práce [21515]
Author
Advisor
Referee
Fišer, Karel
Faculty / Institute
Faculty of Science
Discipline
Bioinformatics
Department
Department of Cell Biology
Date of defense
12. 9. 2025
Publisher
Univerzita Karlova, Přírodovědecká fakultaLanguage
English
Grade
Very good
Keywords (Czech)
inzerce delece NGSKeywords (English)
indels variant calling truth-set NGSSekvenování nové generace způsobilo revoluci v biologickém výzkumu. Díky sníženým nákladům a zvýšené propustnosti se genomická analýza stala dostupnou mnoha vědcům studujícím různé organismy a různé geneticky podmíněné znaky. Ruku v ruce s tímto vývojem musely být vytvořeny nové datové formáty a algoritmy pro zpracování dat a poskytování odpovědí na stále rostoucí soubor otázek. Jedním z kroků tohoto postupu je volání variant - stanovení rozdílů, také známých jako varianty, mezi referenční sekvencí DNA a sekvencí DNA studovaného organismu. Ačkoli se volání variant může zdát pří- močaré, ve skutečnosti může být náročné. Různé technické artefakty vytvořené sekvená- tory, nebo předchozími kroky zpracování ovlivňují jeho výstup a mohou být důvodem nesprávného stanovení genotypu. Mezi běžně studované varianty patří jednonukleoti- dové polymorfismy (SNP) a krátké inzerce a delece, souhrnně označované jako indely. Zatímco oba typy variant mohou představovat problém pro program volající varianty, správně určit indely se ukázalo jako složitější. V současné době existuje mnoho různých programů pro volání variant s dostatečným výkonem pro většinu případů. Autoři těchto programů se snaží, aby byly co nejpřesnější a jejich výkon co nejlepší. Proto je nutné se hlouběji ponořit do slabin těchto algoritmů. Klíčová slova:...
Next generation sequencing caused a revolution in biological research. With lowered cost and increased throughput, genomic analysis became available to many scientists study- ing various organisms and different genetically determined traits and conditions. Hand in hand with this development, new data formats and algorithms had to be created to process the data and provide answers to ever growing set of questions. One of the steps of this processing pipeline is variant calling - determination of differences, known as vari- ants, between reference DNA sequence and DNA sequence of studied organism. Although variant calling may seem to be straightforward, in reality it can be challenging. Various technical artifacts created either by sequencers or previous processing steps affect its out- put and they may be a reason for incorrect genotype determination. Among the variants normally studied are single nucleotide polymorphisms (SNPs) and short insertions and deletions, collectively known as indels. While both types of variants may pose a chal- lenge to the variant caller, indels proved to be harder to call correctly. Currently, many different variant callers exist with sufficient performance for most cases. Authors of these programs strive to make them more accurate and their performance better. For this, it is...
