Pivoting Machine Translation for Vietnamese
Strojový překlad pro vietnamštinu s pivotním jazykem
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/81251Identifikátory
SIS: 163457
Kolekce
- Kvalifikační práce [11239]
Autor
Vedoucí práce
Oponent práce
Novák, Michal
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
9. 9. 2015
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
statistický strojový překlad, metody překladu přes pivotní jazyk, kaskády systémů, triangulace frázové tabulkyKlíčová slova (anglicky)
Statistical Machine Translation, pivoting methods, system cascades, phrase table triangulationČeština a vietnamština jsou úředními jazyky České republiky a Vietnamu. Vzhledem k charakteristickým rysům těchto dvou jazyků a nedostatku zdrojů dat je česko-vietnamský strojový překlad velmi náročnou úlohou a překladový nástroj zaměřený speciálně na tento konkrétní jazykový pár nebyl dosud vyvinut. V této práci budujeme statistické překladové systémy pro překlad mezi češtinou a vietnamštinou a zkoumáme možnosti vylepšení kvality překladu pomocí překladu přes pivotní jazyk. Využití pivotního jazyka (jiného přirozeného jazyka) dává možnost zapojit do systému dodatečné jazykové zdroje. Jako pivotní jazyk jsme pro česko-vietnamský překlad vybrali angličtinu a připravili jsme trénovací a testovací kor- pus pro tyto tři jazykové páry. Pro každý jazykový pár kombinujeme různé zdroje korpusů a podle potřeby zlepšujeme jejich kvalitu pomocí normalizování a filtrování. S metodami překladu přes pivotní jazyk jsme provedli množství experimentů a analyzovali jsme je v realistických podmínkách.
Czech and Vietnamese are the national languages of the Czech Republic and Vietnam, re- spectively. The distinctive features and the shortage of resources renders Czech-Vietnamese machine translation into a difficult task, leading to the fact that no effort has been put into developing a translation tool specifically for the language pair. In this thesis, we develop phrase-based statistical machine translation systems for the language pair and investigate the potential to improve the translation quality with pivoting. Pivoting refers to a set of ma- chine translation approaches through which a natural language, called pivoting language, is introduced to solve the problem of data scarcity between source and target languages, one of the most challenging problems of statistical machine translation. Selecting English as the sole pivoting language for Czech-Vietnamese translation, we prepare training and test- ing corpora for the three language pairs. All possible corpus sources are explored regarding each specific language pair. The next step is to improve quality of the training corpora through normalizing and filtering. Various experiments with pivoting methods are carried out to analyse the performance of pivoting methods in a realistic working condition.