Automatické přiřazení tvaroslovných vzorů v češtině
Automatic assignment of morphological paradigms for Czech
rigorous thesis (RECOGNIZED)
![Document thumbnail](/bitstream/handle/20.500.11956/13684/thumbnail.png?sequence=5&isAllowed=y)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/13684Identifiers
Study Information System: 44903
Collections
- Kvalifikační práce [11242]
Author
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational and Formal Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
17. 9. 2007
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Recognized
Cílem předložené práce je vytvořit metody pro automatické přiřazování morfologických vzorů českým slovům. Nejprve je provedena analýza problému, ve které jsou zdůrazněny některé podproblémy, se kterými se musíme vypořádat. Poté jsou navrženy čtyři různé algoritmy pro výběr z možných vzorů, pracující na základě analýzy slova a jeho kontextu. Dále jsme navrhli algoritmus pro rozdělení množiny slov na třídy ekvivalence podle společného lemmatu. Pro odhad optimálních parametrů jednotlivých metod jsme použili různé zdroje dat, na kterých jsme provedli přes 250 testů s různými hodnotami parametrů. Součástí práce je popis použitých algoritmů a jejich implementace v programovacích jazycích Perl a C++.
Aim of the presented work is to explore possibility of automatic morphological paradigms assignment for the Czech words. Theoretical part of our work consists of the problem analysis with emphasized issues we have to deal with. We present four different algorithms for morphological paradigm assignment, using both word form analysis and contextual information processing. Word forms are partitioned into equivalence classes according to their lemma, using another algorithm. We performed more than 250 tests on the various corpus data with the purpose of estimating best method parameters. Presented algorithms are thoroughly described and implemented.