Core Fidelity of Translation Options in Phrase-Based Machine Translation
Základní korektnost překladových ekvivalentů ve frázovém strojovém překladu
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/86153Identifikátory
SIS: 190298
Kolekce
- Kvalifikační práce [11196]
Autor
Vedoucí práce
Oponent práce
Libovický, Jindřich
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
20. 6. 2017
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
frázový statistický strojový překlad, správnost překladových heselKlíčová slova (anglicky)
phrase-based statistical machine translation, correctness of translation unitsJeden z často používaných přístupů ve strojovém překladu je tzv. frázový překlad. Ten překládá po krátkých úsecích slov - překládaná věta je nejprve rozdělena na malé části, ty jsou přeloženy nezávisle na sobě a následně jsou seskládány zpět dohromady. Překlady těchto krátkých částí se příslušný model naučí dopředu z velkého množství dvojjazyčných vět. Cílem této práce je detekce sémantických chyb v takto naučených překladech krátkých úseků. Jedním ze zdrojů potenciálních problémů může být horší kvalita trénovacích dat; naprosto odpovídající si sady stejných vět jsou totiž velmi vzácné. Horší jsou ale chyby způsobené některými prvky českého jazyka, zejména zdvojené negace - ty totiž způsobí, že vypro- dukované překlady mohou mít zcela protikladný význam k významu vstupní věty. V práci jsme nejprve zkusili poupravit již existující přístupy k filtrování modelů (aby nemohly překládat protikladně). Tyto existující metody se ale příliš neosvědčily, proto jsme navrhli a natrénovali vlastní model založený na neuronových sítích. Ten pro daný frázový pár řekne pravděpodobnost, s jakou si myslí, že je tento pár sémanticky korektní. Vyzkoušeli jsme, nakolik pomáhá...
One popular approach to machine translation is to break sentences into small groups of contiguous words (phrases) and then to translate these phrases inde- pendently. Translations of these phrases are extracted beforehand from a large amount of bilingual data. The goal of this thesis is to detect semantical incorrect- ness in the extracted translations of phrases. One source of potential problems is poor quality of training data (high quality parallel data are very hard to ob- tain), more severe are possible problems introduced by double negative in Czech: the translated sentences might have a completely opposite meaning to the orig- inal one. We first tried to modify our prior work to penalize such erroneous translations. Then we designed and trained our own neural model to produce a semantical score for a given phrase translation. We evaluated the improvements on a small manually annotated set of translations and also in an end-to-end ma- chine translation task. Using our model in an end-to-end machine translation system yields a significant improvement of 0.5 BLEU over the baseline. Our model also beats an existing state-of-the-art method not only in the end-to-end translation (by 0.2 BLEU), but also on the manually annotated data by a factor of more than 2 in recognition of incorrect translations. 1