Hierarchická komprese
Hierarchical compression
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/33410Identifiers
Study Information System: 49670
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Dvořák, Tomáš
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Software Engineering
Date of defense
31. 1. 2011
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
textová komprese, trie, gramarická komprese, hierarchieKeywords (English)
text compression, trie, grammar based compression, hierarchyVětšina textových kompresních metod je založena na podobném principu. Vstupní text je rozdělen na posloupnost textových jednotek. Těmito textovými jednotkami jsou zpravidla znaky, slabiky nebo slova. Vyhledávání redundancí nad delšími textovými jednotkami je u velkých souborů zpravidla efektivnější. Výběrem slov jako textových jednotek ale ztrácíme možnost minimalizovat redundance nad slabikami a písmeny. V této práci jsme navrhli kompresní metodu, která konstruuje hierarchickou gramatiku zachycující redundance slabik, slov a delších částí textu. Následně namísto textových jednotek kóduje tuto gramatiku. Navrhli jsme strategii pro vytvoření této gramatiky na základě vstupního textu a popsali efektivní způsob jejího kódování. Součástí práce je porovnání efektivity této kompresní metody s jinými textovými metodami.
The most of existing text compression methods is based on the same base concept. First the Input text is divided into sequence of text units. These text units cat be single symbols, syllables or words. When compressing large text files, searching for redundancies over longer text units is usually more effective than searching over the shorter ones. But if we choose words as base units we cannot anymore catch redundancies over symbols and syllables. In this paper we propose a new text compression method called Hierarchical compresssion. It constructs hierarchical grammar to store redundancies over syllables, words and upper levels of text. The code of the text then consists of code of this grammer. We proposed a strategy for constructing hierarchical grammar for concrete input text and we proposed an effective way how to encode it. Above mentioned our proposed method is compared with some other common methods of text compression.