Porovnání metod pro kompresi velké abecedy
Comparison of Large Alphabet Compression Methods
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/33956Identifiers
Study Information System: 49246
CU Caralogue: 990013896760106986
Collections
- Kvalifikační práce [11587]
Author
Advisor
Referee
Majerech, Vladan
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Software Engineering
Date of defense
6. 9. 2010
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Při kompresi textu nad abecedou slov nebo slabik je potřeba řešit problém, jak přenést abecedu mezi kodérem a dekodérem. Především u malých a středně velkých dokumentů tvoří kód abecedy významnou část výsledného souboru. Je proto vhodné reprezentovat abecedu co nejúsporněji. Obsahem této práce je srovnání tří přístupů ke kompresi velké abecedy - statického, semiadaptivního a adaptivního. Jsou zde též zkoumány možnosti statické inicializace adaptivních metod pomocí častých elementů jazyka. V neposlední řadě je zde také představena nová, velice efektivní metoda pro kompresi množiny řetzců založená na konečných automatech.
Text compression over alphabet of words or syllables brings up a new concern to deal with - the alphabet needs to be transferred between coder and decoder along with the message. Especially with small or middle-sized documents the code of the alphabet forms a signi cant part of the resulting le. Therefore it is desirable to represent the alphabet as dense as possible. The topic of this thesis is a comparison of three approaches to large alphabet compression - static, semiadaptive and adaptive approach. Moreover the potential of static initialization of adaptive methods with frequent words is analyzed. Furthermore a new and highly eff ective method for compression of a set of strings is introduced.