Core Fidelity of Translation Options in Phrase-Based Machine Translation
Základní korektnost překladových ekvivalentů ve frázovém strojovém překladu
bachelor thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/86153Identifiers
Study Information System: 190298
Collections
- Kvalifikační práce [11196]
Author
Advisor
Referee
Libovický, Jindřich
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Institute of Formal and Applied Linguistics
Date of defense
20. 6. 2017
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
frázový statistický strojový překlad, správnost překladových heselKeywords (English)
phrase-based statistical machine translation, correctness of translation unitsJeden z často používaných přístupů ve strojovém překladu je tzv. frázový překlad. Ten překládá po krátkých úsecích slov - překládaná věta je nejprve rozdělena na malé části, ty jsou přeloženy nezávisle na sobě a následně jsou seskládány zpět dohromady. Překlady těchto krátkých částí se příslušný model naučí dopředu z velkého množství dvojjazyčných vět. Cílem této práce je detekce sémantických chyb v takto naučených překladech krátkých úseků. Jedním ze zdrojů potenciálních problémů může být horší kvalita trénovacích dat; naprosto odpovídající si sady stejných vět jsou totiž velmi vzácné. Horší jsou ale chyby způsobené některými prvky českého jazyka, zejména zdvojené negace - ty totiž způsobí, že vypro- dukované překlady mohou mít zcela protikladný význam k významu vstupní věty. V práci jsme nejprve zkusili poupravit již existující přístupy k filtrování modelů (aby nemohly překládat protikladně). Tyto existující metody se ale příliš neosvědčily, proto jsme navrhli a natrénovali vlastní model založený na neuronových sítích. Ten pro daný frázový pár řekne pravděpodobnost, s jakou si myslí, že je tento pár sémanticky korektní. Vyzkoušeli jsme, nakolik pomáhá...
One popular approach to machine translation is to break sentences into small groups of contiguous words (phrases) and then to translate these phrases inde- pendently. Translations of these phrases are extracted beforehand from a large amount of bilingual data. The goal of this thesis is to detect semantical incorrect- ness in the extracted translations of phrases. One source of potential problems is poor quality of training data (high quality parallel data are very hard to ob- tain), more severe are possible problems introduced by double negative in Czech: the translated sentences might have a completely opposite meaning to the orig- inal one. We first tried to modify our prior work to penalize such erroneous translations. Then we designed and trained our own neural model to produce a semantical score for a given phrase translation. We evaluated the improvements on a small manually annotated set of translations and also in an end-to-end ma- chine translation task. Using our model in an end-to-end machine translation system yields a significant improvement of 0.5 BLEU over the baseline. Our model also beats an existing state-of-the-art method not only in the end-to-end translation (by 0.2 BLEU), but also on the manually annotated data by a factor of more than 2 in recognition of incorrect translations. 1