Indel calling from NGS data

Genči, Jakub

Určování inzercí a delecí z NGS dat

diploma thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (294.2Kb)

Permanent link

http://hdl.handle.net/20.500.11956/203894

Identifiers

Study Information System: 255571

Referee

Fišer, Karel

Faculty / Institute

Faculty of Science

Discipline

Bioinformatics

Department

Department of Cell Biology

Date of defense

12. 9. 2025

Publisher

Univerzita Karlova, Přírodovědecká fakulta

Language

English

Grade

Very good

Keywords (Czech)

inzerce delece NGS

Keywords (English)

indels variant calling truth-set NGS

Sekvenování nové generace způsobilo revoluci v biologickém výzkumu. Díky sníženým nákladům a zvýšené propustnosti se genomická analýza stala dostupnou mnoha vědcům studujícím různé organismy a různé geneticky podmíněné znaky. Ruku v ruce s tímto vývojem musely být vytvořeny nové datové formáty a algoritmy pro zpracování dat a poskytování odpovědí na stále rostoucí soubor otázek. Jedním z kroků tohoto postupu je volání variant - stanovení rozdílů, také známých jako varianty, mezi referenční sekvencí DNA a sekvencí DNA studovaného organismu. Ačkoli se volání variant může zdát pří- močaré, ve skutečnosti může být náročné. Různé technické artefakty vytvořené sekvená- tory, nebo předchozími kroky zpracování ovlivňují jeho výstup a mohou být důvodem nesprávného stanovení genotypu. Mezi běžně studované varianty patří jednonukleoti- dové polymorfismy (SNP) a krátké inzerce a delece, souhrnně označované jako indely. Zatímco oba typy variant mohou představovat problém pro program volající varianty, správně určit indely se ukázalo jako složitější. V současné době existuje mnoho různých programů pro volání variant s dostatečným výkonem pro většinu případů. Autoři těchto programů se snaží, aby byly co nejpřesnější a jejich výkon co nejlepší. Proto je nutné se hlouběji ponořit do slabin těchto algoritmů. Klíčová slova:...

Abstract (English)

Next generation sequencing caused a revolution in biological research. With lowered cost and increased throughput, genomic analysis became available to many scientists study- ing various organisms and different genetically determined traits and conditions. Hand in hand with this development, new data formats and algorithms had to be created to process the data and provide answers to ever growing set of questions. One of the steps of this processing pipeline is variant calling - determination of differences, known as vari- ants, between reference DNA sequence and DNA sequence of studied organism. Although variant calling may seem to be straightforward, in reality it can be challenging. Various technical artifacts created either by sequencers or previous processing steps affect its out- put and they may be a reason for incorrect genotype determination. Among the variants normally studied are single nucleotide polymorphisms (SNPs) and short insertions and deletions, collectively known as indels. While both types of variants may pose a chal- lenge to the variant caller, indels proved to be harder to call correctly. Currently, many different variant callers exist with sufficient performance for most cases. Authors of these programs strive to make them more accurate and their performance better. For this, it is...

Citace dokumentu

Metadata

Show full item record