Suffix Graphs and Lossless Data Compression
Sufixové grafy a bezeztrátová komprese dat
dizertační práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/52913Identifikátory
SIS: 42521
Kolekce
- Kvalifikační práce [10957]
Autor
Vedoucí práce
Oponent práce
Dvorský, Jiří
Smyth, William F.
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwaru a výuky informatiky
Datum obhajoby
23. 9. 2013
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Prospěl/a
Klíčová slova (česky)
Sufixový strom, DAWG, CDAWG, posuvné okno, bezztrátová komprese datKlíčová slova (anglicky)
Suffix tree, DAWG, CDAWG, sliding window, lossless data compressionNázev práce: Sufixové grafy a bezeztrátová komprese dat Autor: Martin Senft Katedra: Katedra software a výuky informatiky Vedoucí doktorské práce: doc. RNDr. Tomáš Dvorˇák, CSc., Katedra software a výuky informatiky Abstrakt: Sufixový strom a prˇíbuzné datové struktury umožnˇují asymptoticky optimálneˇ rěšit rˇadu úloh o rětežcích a jejich vlastností lze též využít k imple- mentacimetodbezztrátovékompresedat. Cílemprácejeprozkoumatmožnosti opacňéhoprˇístupu,tedy využití vlastností sufixovýchgrafu˚ k návrhukompres- ních algoritmu˚. Práce popisuje univerzální konstrukcňí algoritmus pro sufixo- vý trie,sufixový strom,DAWGa CDAWG,doprovázený analýzousimulaceim- plicitních sufixových hran, která prˇináší dveˇ praktické alternativy k tradicňímu rěšení. Protožekompresnímetody vyžadují udržování textuvposuvnémokneˇ, je trěba rozebrat chování sufixových grafu˚ v této situaci. V práci je oveřěno, že pouze sufixový strom je schopen udržovat posuvné okno v amortizovaneˇ kon- stantním cˇase, zatímco CDAWG (podobneˇ jako DAWG) vyžaduje cˇas úmeřný délce okna, což rěší hypotézu Inenagy a kol. Na tomto základeˇ je popsána trˇí- da kompresních algoritmu˚, založených pouze na popisu konstrukce sufixové- ho grafu nad komprimovaným textem. Zatímco neˇkteré z algoritmu˚ odpoví- dají klasickým slovníkovým cˇi kontextovým...
Title: Suffix Graphs and Lossless Data Compression Author: Martin Senft Department: Department of Software and Computer Science Education Supervisor of the doctoral thesis: doc. RNDr. Tomáš Dvorˇák, CSc., Depart- ment of Software and Computer Science Education Abstract: Suffix tree and its variants are widely studied data structures that enable an efficient solution to a number of string problems, but also serve for implementation of data compression algorithms. This work explores the opposite approach: design of compression methods, based entirely on prop- erties of suffix graphs. We describe a unified construction algorithm for suf- fix trie, suffix tree, DAWG and CDAWG, accompanied by analysis of implicit suffix link simulation that yields two practical alternatives. Since the com- pression applications require maintaining text in the sliding window, an in- depth discussionof slidingsuffixgraphsisneeded. Fillinggapsin previously published proofs, we verify that suffix tree is capable of perfect sliding in amortised constant time. On the other hand, we show that this is not the case with CDAWG, thus resolving a problem of Inenaga et al. Building on these investigations,we describea family of data compression methods,based on a description of suffix tree construction for the string to be compressed. While some of...