Lingvistická komprese textu
Linguistic Text Compression
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/30655Identifikátory
SIS: 49258
Katalog UK: 990011989240106986
Kolekce
- Kvalifikační práce [11979]
Autor
Vedoucí práce
Oponent práce
Dědek, Jan
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Teoretická informatika
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
21. 9. 2009
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Velmi dobře
Při kompresi textu můžeme s úspěchem využít znalosti o přirozeném jazyce. V předkládané práci poukazujeme na možnost kódovat samostatně posloupnost slovních druhů nacházejících se ve větě(větný typ) a text samotný. Za tímto účelem je navrhnuta metoda značkování založená na neuronových sítích (NNTagger). Dále se práce soustřeďuje na specifi kaci takového modelu komprese českých textů. Navrhujeme zde metody vytvoření jejich inicializačních slovníků a testujeme vliv na výslednou kompresi.
The compression of texts written in natural language can exploit information about its linguistic character. It is shown that separation of coding of part-of-speech tags of a sentence (type of sentence) from the text alone can improve resulting compression ratio. For this purpose the tagging method NNTagger based on neural networks is designed. This thesis is focused on speci fication of the compression model of texts written in Czech. We propose methods of constructing of initial dictionaries and test their influence on the compression ratio.
