Lingvistická komprese textu

Kazík, Ondřej

Linguistic Text Compression

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (273.4Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/30655

Identifikátory

SIS: 49258

Katalog UK: 990011989240106986

Oponent práce

Dědek, Jan

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Teoretická informatika

Katedra / ústav / klinika

Katedra softwarového inženýrství

Datum obhajoby

21. 9. 2009

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Čeština

Známka

Velmi dobře

Při kompresi textu můžeme s úspěchem využít znalosti o přirozeném jazyce. V předkládané práci poukazujeme na možnost kódovat samostatně posloupnost slovních druhů nacházejících se ve větě(větný typ) a text samotný. Za tímto účelem je navrhnuta metoda značkování založená na neuronových sítích (NNTagger). Dále se práce soustřeďuje na specifi kaci takového modelu komprese českých textů. Navrhujeme zde metody vytvoření jejich inicializačních slovníků a testujeme vliv na výslednou kompresi.

Abstrakt (anglicky)

The compression of texts written in natural language can exploit information about its linguistic character. It is shown that separation of coding of part-of-speech tags of a sentence (type of sentence) from the text alone can improve resulting compression ratio. For this purpose the tagging method NNTagger based on neural networks is designed. This thesis is focused on speci fication of the compression model of texts written in Czech. We propose methods of constructing of initial dictionaries and test their influence on the compression ratio.

Citace dokumentu

Metadata

Zobrazit celý záznam