Pivoting Machine Translation for Vietnamese
Strojový překlad pro vietnamštinu s pivotním jazykem
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/81251Identifiers
Study Information System: 163457
Collections
- Kvalifikační práce [11325]
Author
Advisor
Referee
Novák, Michal
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
9. 9. 2015
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
statistický strojový překlad, metody překladu přes pivotní jazyk, kaskády systémů, triangulace frázové tabulkyKeywords (English)
Statistical Machine Translation, pivoting methods, system cascades, phrase table triangulationČeština a vietnamština jsou úředními jazyky České republiky a Vietnamu. Vzhledem k charakteristickým rysům těchto dvou jazyků a nedostatku zdrojů dat je česko-vietnamský strojový překlad velmi náročnou úlohou a překladový nástroj zaměřený speciálně na tento konkrétní jazykový pár nebyl dosud vyvinut. V této práci budujeme statistické překladové systémy pro překlad mezi češtinou a vietnamštinou a zkoumáme možnosti vylepšení kvality překladu pomocí překladu přes pivotní jazyk. Využití pivotního jazyka (jiného přirozeného jazyka) dává možnost zapojit do systému dodatečné jazykové zdroje. Jako pivotní jazyk jsme pro česko-vietnamský překlad vybrali angličtinu a připravili jsme trénovací a testovací kor- pus pro tyto tři jazykové páry. Pro každý jazykový pár kombinujeme různé zdroje korpusů a podle potřeby zlepšujeme jejich kvalitu pomocí normalizování a filtrování. S metodami překladu přes pivotní jazyk jsme provedli množství experimentů a analyzovali jsme je v realistických podmínkách.
Czech and Vietnamese are the national languages of the Czech Republic and Vietnam, re- spectively. The distinctive features and the shortage of resources renders Czech-Vietnamese machine translation into a difficult task, leading to the fact that no effort has been put into developing a translation tool specifically for the language pair. In this thesis, we develop phrase-based statistical machine translation systems for the language pair and investigate the potential to improve the translation quality with pivoting. Pivoting refers to a set of ma- chine translation approaches through which a natural language, called pivoting language, is introduced to solve the problem of data scarcity between source and target languages, one of the most challenging problems of statistical machine translation. Selecting English as the sole pivoting language for Czech-Vietnamese translation, we prepare training and test- ing corpora for the three language pairs. All possible corpus sources are explored regarding each specific language pair. The next step is to improve quality of the training corpora through normalizing and filtering. Various experiments with pivoting methods are carried out to analyse the performance of pivoting methods in a realistic working condition.