Automatické přiřazení tvaroslovných vzorů v češtině
Automatic assignment of morphological paradigms for Czech
rigorózní práce (UZNÁNO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/13684Identifikátory
SIS: 44903
Katalog UK: 990014464720106986
Kolekce
- Kvalifikační práce [11335]
Autor
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Počítačová a formální lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
17. 9. 2007
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Uznáno
Cílem předložené práce je vytvořit metody pro automatické přiřazování morfologických vzorů českým slovům. Nejprve je provedena analýza problému, ve které jsou zdůrazněny některé podproblémy, se kterými se musíme vypořádat. Poté jsou navrženy čtyři různé algoritmy pro výběr z možných vzorů, pracující na základě analýzy slova a jeho kontextu. Dále jsme navrhli algoritmus pro rozdělení množiny slov na třídy ekvivalence podle společného lemmatu. Pro odhad optimálních parametrů jednotlivých metod jsme použili různé zdroje dat, na kterých jsme provedli přes 250 testů s různými hodnotami parametrů. Součástí práce je popis použitých algoritmů a jejich implementace v programovacích jazycích Perl a C++.
Aim of the presented work is to explore possibility of automatic morphological paradigms assignment for the Czech words. Theoretical part of our work consists of the problem analysis with emphasized issues we have to deal with. We present four different algorithms for morphological paradigm assignment, using both word form analysis and contextual information processing. Word forms are partitioned into equivalence classes according to their lemma, using another algorithm. We performed more than 250 tests on the various corpus data with the purpose of estimating best method parameters. Presented algorithms are thoroughly described and implemented.