Core Fidelity of Translation Options in Phrase-Based Machine Translation

Hübsch, Ondřej

Základní korektnost překladových ekvivalentů ve frázovém strojovém překladu

bachelor thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (479.5Kb)

Permanent link

http://hdl.handle.net/20.500.11956/86153

Identifiers

Study Information System: 190298

Referee

Libovický, Jindřich

Faculty / Institute

Faculty of Mathematics and Physics

Discipline

General Computer Science

Department

Institute of Formal and Applied Linguistics

Date of defense

20. 6. 2017

Publisher

Univerzita Karlova, Matematicko-fyzikální fakulta

Language

English

Grade

Excellent

Keywords (Czech)

frázový statistický strojový překlad, správnost překladových hesel

Keywords (English)

phrase-based statistical machine translation, correctness of translation units

Jeden z často používaných přístupů ve strojovém překladu je tzv. frázový překlad. Ten překládá po krátkých úsecích slov - překládaná věta je nejprve rozdělena na malé části, ty jsou přeloženy nezávisle na sobě a následně jsou seskládány zpět dohromady. Překlady těchto krátkých částí se příslušný model naučí dopředu z velkého množství dvojjazyčných vět. Cílem této práce je detekce sémantických chyb v takto naučených překladech krátkých úseků. Jedním ze zdrojů potenciálních problémů může být horší kvalita trénovacích dat; naprosto odpovídající si sady stejných vět jsou totiž velmi vzácné. Horší jsou ale chyby způsobené některými prvky českého jazyka, zejména zdvojené negace - ty totiž způsobí, že vypro- dukované překlady mohou mít zcela protikladný význam k významu vstupní věty. V práci jsme nejprve zkusili poupravit již existující přístupy k filtrování modelů (aby nemohly překládat protikladně). Tyto existující metody se ale příliš neosvědčily, proto jsme navrhli a natrénovali vlastní model založený na neuronových sítích. Ten pro daný frázový pár řekne pravděpodobnost, s jakou si myslí, že je tento pár sémanticky korektní. Vyzkoušeli jsme, nakolik pomáhá...

Abstract (English)

One popular approach to machine translation is to break sentences into small groups of contiguous words (phrases) and then to translate these phrases inde- pendently. Translations of these phrases are extracted beforehand from a large amount of bilingual data. The goal of this thesis is to detect semantical incorrect- ness in the extracted translations of phrases. One source of potential problems is poor quality of training data (high quality parallel data are very hard to ob- tain), more severe are possible problems introduced by double negative in Czech: the translated sentences might have a completely opposite meaning to the orig- inal one. We first tried to modify our prior work to penalize such erroneous translations. Then we designed and trained our own neural model to produce a semantical score for a given phrase translation. We evaluated the improvements on a small manually annotated set of translations and also in an end-to-end ma- chine translation task. Using our model in an end-to-end machine translation system yields a significant improvement of 0.5 BLEU over the baseline. Our model also beats an existing state-of-the-art method not only in the end-to-end translation (by 0.2 BLEU), but also on the manually annotated data by a factor of more than 2 in recognition of incorrect translations. 1

Citace dokumentu

Metadata

Show full item record