Targeted optimization of masked superstrings for k-mer sets
Cílená optimalizace maskovaných nadřetězců pro množiny k-merů
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/204030Identifikátory
SIS: 278417
Kolekce
- Kvalifikační práce [21509]
Autor
Vedoucí práce
Konzultant práce
Břinda, Karel
Sladký, Ondřej
Oponent práce
Ackermann, Leo
Fakulta / součást
Přírodovědecká fakulta
Obor
Bioinformatika
Katedra / ústav / klinika
Katedra buněčné biologie
Datum obhajoby
8. 9. 2025
Nakladatel
Univerzita Karlova, Přírodovědecká fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
množiny k-merů|bioinformatika|výpočetní genomika|algoritmy|problém nejkratšího nadřetězce|celočíselné programováníKlíčová slova (anglicky)
k-mer sets|bioinformatics|computational genomics|algorithms|shortest superstring problem|integer linear programmingNárůst sběru genomických dat v posledních desetiletích vede na výzvy v jejich efektivním ukládání a návrhu datových struktur. Metody založené na k-merech, podřetězcích malé pevné délky, se ukázaly jako obzvláště užitečné a v řadě aplikací překonávají standardní metody založené na sestavování ge- nomů. Nový přístup maskovaných nadřetězců zobecnil metody založené na k-merech a poskytl ješte lepší kompresní účinnost spolu s jednoduchým a paměťově efektivním způsobem návrhu datových struktur pro k-mery. Opti- malizace maskovaných nadřetězců, která je NP-těžká, však byla dosud pro- vádena pouze ve dvou krocích, což vytváří prostor pro zlepšení. V této práci modelujeme prostorovou složitost maskovaných nadřetězců s maskami uloženými v kódování pomocí délky běhů a v Eliasově-Fanově kó- dování. Navrhneme polynomiální heuristický algoritmus pro jednokrokovou optimalizaci maskovaných nadřetězců, implementujeme tento algoritmus a otestujeme ho na eukaryotických genomech a mikrobiálních pangenomech. Poté experimentálně dokážeme, že naše implementace překonává dosud nej- lepší známé metody, a to jak teoreticky, tak prakticky, zejména pro pange- nomické datasety.
The increase in genomic data collection over the last decades has created a challenge for efficient data storage and querying. Methods based on k-mers, substrings of a small fixed length, have proven to be particularly useful and outperform standard assembly-based methods in a variety of applications. The novel approach of masked superstrings generalized k-mer-based methods and provided state-of-the-art compression efficiency together with a simple and memory-efficient way to design data structures for k-mers. However, the optimization of masked superstrings, which is NP-hard, has only been done as a two-step process so far, creating room for improvement. In this thesis, we model the space complexity of masked superstrings with masks stored in run-length and Elias-Fano encodings. We propose a polynomial-time heuristic algorithm for single-step optimization of masked superstrings, implement the algorithm, and test it on eukaryotic genomes and bacterial pangenomes. We then experimentally prove that our implementa- tion outperforms the best-performing methods used so far, both theoretically and practically, especially for pangenomic datasets.
