Využití hrubé reprezentace slov ve strojovém překladu do češtiny
Coarse Word Representations in Machine Translation into Czech
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/82920Identifiers
Study Information System: 168291
CU Caralogue: 990021032360106986
Collections
- Kvalifikační práce [11335]
Author
Advisor
Referee
Mareček, David
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Theoretical Computer Science
Department
Institute of Formal and Applied Linguistics
Date of defense
12. 9. 2016
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Práce se zabývá možnostmi hrubé reprezentace slov ve strojovém překladu z němčiny a maďarštiny do češtiny. Porovnává různé nástroje na dělení německých a maďarských složenin. Pro maďarštinu je pak navíc navrhnut způsob dělení podstatných jmen v několika variantách. Práce pokračuje experimenty se slovními třídami, kde kombinuje dělení slov a různé konfigurace slovních tříd. Speciálně jsou pak používány třídy dvojjazyčné. Porovnání je vždy provedeno na překladu z němčiny nebo maďarštiny do češtiny. Výstupy jsou hodnoceny automatickými metrikami BLEU a METEOR. Nejlepší konfigurace jsou vyhodnoceny ručně. Ukazuje se, že samotné dělení německých složenin a maďarských podstatných jmen nevede při překladu do češtiny k příliš lepším výsledkům, v kombinaci se slovními třídami je zlepšení výraznější.
In this thesis we deal with the possibilities of the coarse word representation in machine translation from German and Hungarian into Czech. First, we compare the different tools for splitting of German and Hungarian compounds. For Hungarian we additionally designed several variants of nouns splitting. Then we experiment with word classes, where we combine splitting of words and several different configurations of word classes. Specially we use the bilingual classes. After that comparison for a translation from German or Hungarian into Czech is made. Outputs are evaluated by automatic metrics BLEU and METEOR. The best configurations are evaluated manually afterwards. It turns out that the solitary splitting of German compounds and Hungarian nouns does not lead to much better results when translated into Czech. In combination with the word classes there is a noticable improvement.