Suffix Graphs and Lossless Data Compression
Sufixové grafy a bezeztrátová komprese dat
dissertation thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/52913Identifiers
Study Information System: 42521
Collections
- Kvalifikační práce [10957]
Author
Advisor
Referee
Dvorský, Jiří
Smyth, William F.
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Software and Computer Science Education
Date of defense
23. 9. 2013
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Pass
Keywords (Czech)
Sufixový strom, DAWG, CDAWG, posuvné okno, bezztrátová komprese datKeywords (English)
Suffix tree, DAWG, CDAWG, sliding window, lossless data compressionNázev práce: Sufixové grafy a bezeztrátová komprese dat Autor: Martin Senft Katedra: Katedra software a výuky informatiky Vedoucí doktorské práce: doc. RNDr. Tomáš Dvorˇák, CSc., Katedra software a výuky informatiky Abstrakt: Sufixový strom a prˇíbuzné datové struktury umožnˇují asymptoticky optimálneˇ rěšit rˇadu úloh o rětežcích a jejich vlastností lze též využít k imple- mentacimetodbezztrátovékompresedat. Cílemprácejeprozkoumatmožnosti opacňéhoprˇístupu,tedy využití vlastností sufixovýchgrafu˚ k návrhukompres- ních algoritmu˚. Práce popisuje univerzální konstrukcňí algoritmus pro sufixo- vý trie,sufixový strom,DAWGa CDAWG,doprovázený analýzousimulaceim- plicitních sufixových hran, která prˇináší dveˇ praktické alternativy k tradicňímu rěšení. Protožekompresnímetody vyžadují udržování textuvposuvnémokneˇ, je trěba rozebrat chování sufixových grafu˚ v této situaci. V práci je oveřěno, že pouze sufixový strom je schopen udržovat posuvné okno v amortizovaneˇ kon- stantním cˇase, zatímco CDAWG (podobneˇ jako DAWG) vyžaduje cˇas úmeřný délce okna, což rěší hypotézu Inenagy a kol. Na tomto základeˇ je popsána trˇí- da kompresních algoritmu˚, založených pouze na popisu konstrukce sufixové- ho grafu nad komprimovaným textem. Zatímco neˇkteré z algoritmu˚ odpoví- dají klasickým slovníkovým cˇi kontextovým...
Title: Suffix Graphs and Lossless Data Compression Author: Martin Senft Department: Department of Software and Computer Science Education Supervisor of the doctoral thesis: doc. RNDr. Tomáš Dvorˇák, CSc., Depart- ment of Software and Computer Science Education Abstract: Suffix tree and its variants are widely studied data structures that enable an efficient solution to a number of string problems, but also serve for implementation of data compression algorithms. This work explores the opposite approach: design of compression methods, based entirely on prop- erties of suffix graphs. We describe a unified construction algorithm for suf- fix trie, suffix tree, DAWG and CDAWG, accompanied by analysis of implicit suffix link simulation that yields two practical alternatives. Since the com- pression applications require maintaining text in the sliding window, an in- depth discussionof slidingsuffixgraphsisneeded. Fillinggapsin previously published proofs, we verify that suffix tree is capable of perfect sliding in amortised constant time. On the other hand, we show that this is not the case with CDAWG, thus resolving a problem of Inenaga et al. Building on these investigations,we describea family of data compression methods,based on a description of suffix tree construction for the string to be compressed. While some of...