Automatické přiřazení tvaroslovných vzorů v češtině

Spousta, Miroslav

Automatic assignment of morphological paradigms for Czech

rigorózní práce (UZNÁNO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (14.89Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/13684

Identifikátory

SIS: 44903

Katalog UK: 990014464720106986

Kolekce

Kvalifikační práce [12259]

Autor

Spousta, Miroslav

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Počítačová a formální lingvistika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

17. 9. 2007

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Čeština

Známka

Uznáno

Cílem předložené práce je vytvořit metody pro automatické přiřazování morfologických vzorů českým slovům. Nejprve je provedena analýza problému, ve které jsou zdůrazněny některé podproblémy, se kterými se musíme vypořádat. Poté jsou navrženy čtyři různé algoritmy pro výběr z možných vzorů, pracující na základě analýzy slova a jeho kontextu. Dále jsme navrhli algoritmus pro rozdělení množiny slov na třídy ekvivalence podle společného lemmatu. Pro odhad optimálních parametrů jednotlivých metod jsme použili různé zdroje dat, na kterých jsme provedli přes 250 testů s různými hodnotami parametrů. Součástí práce je popis použitých algoritmů a jejich implementace v programovacích jazycích Perl a C++.

Abstrakt (anglicky)

Aim of the presented work is to explore possibility of automatic morphological paradigms assignment for the Czech words. Theoretical part of our work consists of the problem analysis with emphasized issues we have to deal with. We present four different algorithms for morphological paradigm assignment, using both word form analysis and contextual information processing. Word forms are partitioned into equivalence classes according to their lemma, using another algorithm. We performed more than 250 tests on the various corpus data with the purpose of estimating best method parameters. Presented algorithms are thoroughly described and implemented.

Citace dokumentu

Metadata

Zobrazit celý záznam