Lexical and Morphological Choices in Machine Translation
Lexikální a tvaroslovné varianty ve strojovém překladu
dissertation thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/93583Identifiers
Study Information System: 123225
Collections
- Kvalifikační práce [11322]
Author
Advisor
Referee
Čmejrek, Martin
Rosen, Alexandr
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Mathematical Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
12. 6. 2017
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Pass
Keywords (Czech)
strojový překlad, diskriminativní modely, strojové učení, morfologieKeywords (English)
machine translation, discriminative models, machine learning, morphologyPráce se zabývá dvěma problémy strojového překladu: lexikální volbou a morfologií v cílovém jazyce. První úlohou je správné přenesení významu ze zdrojového jazyka do cílového. Druhá úloha, která hraje roli především při překladu do tvaroslovně bohatých jazyků, je pak správná volba povrchové formy u cílových lexémů. Tyto úlohy řešíme v rámci frázového strojového překladu. Navrhujeme diskriminativní překladový model, který využívá lingvisticky motivované rysy extrahované jak ze zdrojového, tak z cílového kontextu. Ukazujeme, že tento model řeší konkrétní slabiny standardních frázových systémů. Pomocí řady experimentů pak dokládáme, že model konzistentně zlepšuje kvalitu výsledného překladu. Vedle tohoto hlavního příspěvku popisujeme analýzy, ruční anotace a experimenty zaměřené především na anglicko-český překlad.
This work focuses on two problems in machine translation: lexical choice and target-side morphology. The first problem is the correct transfer of meaning from the source language to the target language. The second problem, which is mainly relevant for morphologically rich target languages, is then the choice of the correct surface form of each target lexeme. We work with these problems within the framework of phrase-based machine translation and we propose a discriminative model of translation which utilizes both source and target context information and which uses rich linguistically motivated features. We show how our model addresses specific weaknesses of standard phrase-based systems and that it provides consistent improvements of translation quality across a broad range of experiments. Apart from our main contribution, we also provide a number of experimental evaluations, analyses and manual annotation experiments, mostly related to English-Czech translation.