Core Fidelity of Translation Options in Phrase-Based Machine Translation

Hübsch, Ondřej

Základní korektnost překladových ekvivalentů ve frázovém strojovém překladu

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (479.5Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/86153

Identifikátory

SIS: 190298

Oponent práce

Libovický, Jindřich

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Obecná informatika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

20. 6. 2017

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

frázový statistický strojový překlad, správnost překladových hesel

Klíčová slova (anglicky)

phrase-based statistical machine translation, correctness of translation units

Jeden z často používaných přístupů ve strojovém překladu je tzv. frázový překlad. Ten překládá po krátkých úsecích slov - překládaná věta je nejprve rozdělena na malé části, ty jsou přeloženy nezávisle na sobě a následně jsou seskládány zpět dohromady. Překlady těchto krátkých částí se příslušný model naučí dopředu z velkého množství dvojjazyčných vět. Cílem této práce je detekce sémantických chyb v takto naučených překladech krátkých úseků. Jedním ze zdrojů potenciálních problémů může být horší kvalita trénovacích dat; naprosto odpovídající si sady stejných vět jsou totiž velmi vzácné. Horší jsou ale chyby způsobené některými prvky českého jazyka, zejména zdvojené negace - ty totiž způsobí, že vypro- dukované překlady mohou mít zcela protikladný význam k významu vstupní věty. V práci jsme nejprve zkusili poupravit již existující přístupy k filtrování modelů (aby nemohly překládat protikladně). Tyto existující metody se ale příliš neosvědčily, proto jsme navrhli a natrénovali vlastní model založený na neuronových sítích. Ten pro daný frázový pár řekne pravděpodobnost, s jakou si myslí, že je tento pár sémanticky korektní. Vyzkoušeli jsme, nakolik pomáhá...

Abstrakt (anglicky)

One popular approach to machine translation is to break sentences into small groups of contiguous words (phrases) and then to translate these phrases inde- pendently. Translations of these phrases are extracted beforehand from a large amount of bilingual data. The goal of this thesis is to detect semantical incorrect- ness in the extracted translations of phrases. One source of potential problems is poor quality of training data (high quality parallel data are very hard to ob- tain), more severe are possible problems introduced by double negative in Czech: the translated sentences might have a completely opposite meaning to the orig- inal one. We first tried to modify our prior work to penalize such erroneous translations. Then we designed and trained our own neural model to produce a semantical score for a given phrase translation. We evaluated the improvements on a small manually annotated set of translations and also in an end-to-end ma- chine translation task. Using our model in an end-to-end machine translation system yields a significant improvement of 0.5 BLEU over the baseline. Our model also beats an existing state-of-the-art method not only in the end-to-end translation (by 0.2 BLEU), but also on the manually annotated data by a factor of more than 2 in recognition of incorrect translations. 1

Citace dokumentu

Metadata

Zobrazit celý záznam