Enriching Neural MT through Multi-Task Training
Obohacování neuronového strojového překladu technikou sdíleného trénování na více úlohách
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/101641Identifiers
Study Information System: 201574
Collections
- Kvalifikační práce [11217]
Author
Advisor
Referee
Helcl, Jindřich
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
11. 9. 2018
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
multi-task neuronový strojový překlad NMT Transformer němčinaKeywords (English)
multi-task neural machine translation NMT Transformer GermanTransformer je nedávno objevený, rychlý a výkonný model pro neuronový strojový překlad. V této práci experimentujeme se sdíleným trénováním na více úlohách (tzv. multitasking) pro obohacování zdrojové strany Transformeru lingvistickou anotací, což mu poskytuje další zdroj informací, z nichž může lépe získat znalost jazyka a reálného světa. Zaměřujeme se na dva přístupy: základní model se všemi sdílenými komponentami, u nějž je multitasking implementován jednoduchou manipulací se vstupními daty, a model s více dekodéry. Testujeme sdílené modely pro strojový překlad a určování slovních druhů (POS tagging), závislostní rozbor větné syntaxe (dependency parsing) a rozpoznávání pojmenovaných entit jako sekundární úlohy. Evaluujeme je srovnáním se základním modelem pro strojový překlad a s modely obohacenými umělými, lingvisticky nerelevantními úlohami. Zaměřujeme se primárně na strojový překlad z němčiny do češtiny se standardní velikostí trénovacích dat. Přestože žádný z našich obohacených modelů signifikantně nepřekonal základní model, ukazujeme, že (i) sekundární lingvistické úlohy jsou při trénování strojového překladu užitečné; (ii) z pohledu množství dat použitých při tréninku se modely obohacené více úlohami učí rychleji; (iii) v podmínkách s omezenými zdroji multitasking signifikantně vylepší základní...
The Transformer model is a very recent, fast and powerful discovery in neural machine translation. We experiment with multi-task learning for enriching the source side of the Transformer with linguistic resources to provide it with additional information to learn linguistic and world knowledge better. We analyze two approaches: the basic shared model with multi-tasking through simple data manipulation, and multi-decoder models. We test joint models for machine translation (MT) and POS tagging, dependency parsing and named entity recognition as the secondary tasks. We evaluate them in comparison with the baseline and with dummy, linguistically unrelated tasks. We focus primarily on the standard- size data setting for German-to-Czech MT. Although our enriched models did not significantly outperform the baseline, we empirically document that (i) the MT models benefit from the secondary linguistic tasks; (ii) considering the amount of training data consumed, the multi-tasking models learn faster; (iii) in low-resource conditions, the multi-tasking significantly improves the model; (iv) the more fine-grained annotation of the source as the secondary task, the higher benefit to MT.