Porovnání metod pro kompresi velké abecedy
Comparison of Large Alphabet Compression Methods
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/33956Identifikátory
SIS: 49246
Katalog UK: 990013896760106986
Kolekce
- Kvalifikační práce [11973]
Autor
Vedoucí práce
Oponent práce
Majerech, Vladan
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
6. 9. 2010
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Při kompresi textu nad abecedou slov nebo slabik je potřeba řešit problém, jak přenést abecedu mezi kodérem a dekodérem. Především u malých a středně velkých dokumentů tvoří kód abecedy významnou část výsledného souboru. Je proto vhodné reprezentovat abecedu co nejúsporněji. Obsahem této práce je srovnání tří přístupů ke kompresi velké abecedy - statického, semiadaptivního a adaptivního. Jsou zde též zkoumány možnosti statické inicializace adaptivních metod pomocí častých elementů jazyka. V neposlední řadě je zde také představena nová, velice efektivní metoda pro kompresi množiny řetzců založená na konečných automatech.
Text compression over alphabet of words or syllables brings up a new concern to deal with - the alphabet needs to be transferred between coder and decoder along with the message. Especially with small or middle-sized documents the code of the alphabet forms a signi cant part of the resulting le. Therefore it is desirable to represent the alphabet as dense as possible. The topic of this thesis is a comparison of three approaches to large alphabet compression - static, semiadaptive and adaptive approach. Moreover the potential of static initialization of adaptive methods with frequent words is analyzed. Furthermore a new and highly eff ective method for compression of a set of strings is introduced.
