Machine Translation Using Syntactic Analysis
Strojový překlad s využitím syntaktické analýzy
dizertační práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/104305Identifikátory
SIS: 76088
Kolekce
- Kvalifikační práce [11196]
Autor
Vedoucí práce
Konzultant práce
Hajič, Jan
Oponent práce
Ircing, Pavel
Čmejrek, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
19. 9. 2018
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Prospěl/a
Klíčová slova (česky)
syntaktický strojový překlad, neuronový strojový překlad, hluboká neuronová síť, doménová adaptaceKlíčová slova (anglicky)
syntax-based machine translation, neural machine translation, deep neural networks, domain adaptationStrojový překlad s využitím syntaktické analýzy Martin Popel Tato práce popisuje zlepšení anglicko-českého a česko-anglického strojo- vého překladu pomocí metod, které lze použít i na další jazyky. V první části je popsáno několik zlepšení hloubkově-syntaktického překladače TectoMT, například rozšíření pro další jazyky a domény nebo implementace nového typu překladových modelů využívajících kontext a různé metody strojového učení. V druhé části je popsán neuronový překladač Transformer a jeho vy- lepšení. Po detailní analýze vlivu různých hyperparametrů, bylo optimali- zováno trénování systému tak, že dosáhl o 1.0 BLEU lepšího překladu než nejlepší systém v soutěži WMT2017. Využitím jednojazyčných dat cílového jazyka pomocí nového typu zpětného překladu bylo dosaženo dalšího zlep- šení kvality překladu o 2.8 BLEU. Využitím doménové adaptace zohledňující "překladštinu" (translationese) - tedy zohledněním toho, zda paralelní data jsou původně psána česky, nebo anglicky - byl výsledný systém vylepšen o dalších 0.2 BLEU. Tento výsledný neuronový překladač byl signifikantně lepší (p<0.05) než všechny ostatní anglicko-české a česko-anglické překladače v soutěži WMT2018. Podle výsledků ručního hodnocení byla kvalita tohoto strojového překladu dokonce vyšší než kvalita lidského referenčního překladu.
Machine Translation Using Syntactic Analysis Martin Popel This thesis describes our improvement of machine translation (MT), with a special focus on the English-Czech language pair, but using techniques ap- plicable also to other languages. First, we present multiple improvements of the deep-syntactic system TectoMT. For instance, we implemented a novel context-sensitive translation model, comparing several machine learning ap- proaches. We also adapted TectoMT to other domains and languages. Sec- ond, we present Transformer - a state-of-the-art end-to-end neural MT sys- tem. We analyzed in detail the effect of several training hyper-parameters. With our optimized training, the system outperformed the best result on the WMT2017 test set by +1.0 BLEU. We further extended this system by uti- lization of monolingual training data and by a new type of backtranslation (+2.8 BLEU compared to the baseline system). In addition, we leveraged domain adaptation and the effect of "translationese" (i.e which language in parallel data is the original and which is the translation) to optimize MT systems for original-language and translated-language data (gaining further +0.2 BLEU). Our improved neural MT system significantly (p¡0.05) out- performed all other systems in English-Czech and Czech-English WMT2018 shared tasks,...