Genetické algoritmy: charakteristické slabiky jazyka

Kuthan, Tomáš

Genetic alogrithms: Characterical syllables of language

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (162.5Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/10940

Identifikátory

SIS: 43538

Oponent práce

Skopal, Tomáš

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Programování

Katedra / ústav / klinika

Katedra softwarového inženýrství

Datum obhajoby

25. 6. 2007

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Čeština

Známka

Výborně

Slabiková komprese je nový přístup ke kompresi textů po symbolech. Důležitým aspektem tohoto přístupu jsou slovníky častých slabik. Tyto slovníky slouží k počáteční inicializaci kompresních algoritmů a mají velký vliv na kompresní poměr. Doposud byly získávány přímočaře na základě četností výskytů slabik v korpusech. Věříme, že za pomoci genetického algoritmu bychom mohli dokázat přesněji určit množinu slabik, které jsou pro daný jazyk charakteristické, a tím dosáhnout lepších výsledků při samotné kompresi. V této práci se pokusíme takovýto algoritmus navrhnout a otestujeme jej na textech v anglickém a českém jazyce.

Abstrakt (anglicky)

Syllable based compression is a new approach to text compression. An important aspect of this approach are the dictionaries of common syllables. They are used in compression algorithms initialization and greatly affect the compression ratio. Until now they were created by a rather straight-forward analysis of text corpora. We believe that dictionaries created by genetic algorithms may help us lower the compression ratio. In this study we will design such an algorithm and test it on Czech and English texts.

Citace dokumentu

Metadata

Zobrazit celý záznam