Zobrazit minimální záznam

Obohacování neuronového strojového překladu technikou sdíleného trénování na více úlohách
dc.contributor.advisorBojar, Ondřej
dc.creatorMacháček, Dominik
dc.date.accessioned2018-10-02T17:55:00Z
dc.date.available2018-10-02T17:55:00Z
dc.date.issued2018
dc.identifier.urihttp://hdl.handle.net/20.500.11956/101641
dc.description.abstractTransformer je nedávno objevený, rychlý a výkonný model pro neuronový strojový překlad. V této práci experimentujeme se sdíleným trénováním na více úlohách (tzv. multitasking) pro obohacování zdrojové strany Transformeru lingvistickou anotací, což mu poskytuje další zdroj informací, z nichž může lépe získat znalost jazyka a reálného světa. Zaměřujeme se na dva přístupy: základní model se všemi sdílenými komponentami, u nějž je multitasking implementován jednoduchou manipulací se vstupními daty, a model s více dekodéry. Testujeme sdílené modely pro strojový překlad a určování slovních druhů (POS tagging), závislostní rozbor větné syntaxe (dependency parsing) a rozpoznávání pojmenovaných entit jako sekundární úlohy. Evaluujeme je srovnáním se základním modelem pro strojový překlad a s modely obohacenými umělými, lingvisticky nerelevantními úlohami. Zaměřujeme se primárně na strojový překlad z němčiny do češtiny se standardní velikostí trénovacích dat. Přestože žádný z našich obohacených modelů signifikantně nepřekonal základní model, ukazujeme, že (i) sekundární lingvistické úlohy jsou při trénování strojového překladu užitečné; (ii) z pohledu množství dat použitých při tréninku se modely obohacené více úlohami učí rychleji; (iii) v podmínkách s omezenými zdroji multitasking signifikantně vylepší základní...cs_CZ
dc.description.abstractThe Transformer model is a very recent, fast and powerful discovery in neural machine translation. We experiment with multi-task learning for enriching the source side of the Transformer with linguistic resources to provide it with additional information to learn linguistic and world knowledge better. We analyze two approaches: the basic shared model with multi-tasking through simple data manipulation, and multi-decoder models. We test joint models for machine translation (MT) and POS tagging, dependency parsing and named entity recognition as the secondary tasks. We evaluate them in comparison with the baseline and with dummy, linguistically unrelated tasks. We focus primarily on the standard- size data setting for German-to-Czech MT. Although our enriched models did not significantly outperform the baseline, we empirically document that (i) the MT models benefit from the secondary linguistic tasks; (ii) considering the amount of training data consumed, the multi-tasking models learn faster; (iii) in low-resource conditions, the multi-tasking significantly improves the model; (iv) the more fine-grained annotation of the source as the secondary task, the higher benefit to MT.en_US
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectmulti-task neural machine translation NMT Transformer Germanen_US
dc.subjectmulti-task neuronový strojový překlad NMT Transformer němčinacs_CZ
dc.titleEnriching Neural MT through Multi-Task Trainingen_US
dc.typediplomová prácecs_CZ
dcterms.created2018
dcterms.dateAccepted2018-09-11
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId201574
dc.title.translatedObohacování neuronového strojového překladu technikou sdíleného trénování na více úloháchcs_CZ
dc.contributor.refereeHelcl, Jindřich
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineComputational Linguisticsen_US
thesis.degree.disciplineMatematická lingvistikacs_CZ
thesis.degree.programInformatikacs_CZ
thesis.degree.programComputer Scienceen_US
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csMatematická lingvistikacs_CZ
uk.degree-discipline.enComputational Linguisticsen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csTransformer je nedávno objevený, rychlý a výkonný model pro neuronový strojový překlad. V této práci experimentujeme se sdíleným trénováním na více úlohách (tzv. multitasking) pro obohacování zdrojové strany Transformeru lingvistickou anotací, což mu poskytuje další zdroj informací, z nichž může lépe získat znalost jazyka a reálného světa. Zaměřujeme se na dva přístupy: základní model se všemi sdílenými komponentami, u nějž je multitasking implementován jednoduchou manipulací se vstupními daty, a model s více dekodéry. Testujeme sdílené modely pro strojový překlad a určování slovních druhů (POS tagging), závislostní rozbor větné syntaxe (dependency parsing) a rozpoznávání pojmenovaných entit jako sekundární úlohy. Evaluujeme je srovnáním se základním modelem pro strojový překlad a s modely obohacenými umělými, lingvisticky nerelevantními úlohami. Zaměřujeme se primárně na strojový překlad z němčiny do češtiny se standardní velikostí trénovacích dat. Přestože žádný z našich obohacených modelů signifikantně nepřekonal základní model, ukazujeme, že (i) sekundární lingvistické úlohy jsou při trénování strojového překladu užitečné; (ii) z pohledu množství dat použitých při tréninku se modely obohacené více úlohami učí rychleji; (iii) v podmínkách s omezenými zdroji multitasking signifikantně vylepší základní...cs_CZ
uk.abstract.enThe Transformer model is a very recent, fast and powerful discovery in neural machine translation. We experiment with multi-task learning for enriching the source side of the Transformer with linguistic resources to provide it with additional information to learn linguistic and world knowledge better. We analyze two approaches: the basic shared model with multi-tasking through simple data manipulation, and multi-decoder models. We test joint models for machine translation (MT) and POS tagging, dependency parsing and named entity recognition as the secondary tasks. We evaluate them in comparison with the baseline and with dummy, linguistically unrelated tasks. We focus primarily on the standard- size data setting for German-to-Czech MT. Although our enriched models did not significantly outperform the baseline, we empirically document that (i) the MT models benefit from the secondary linguistic tasks; (ii) considering the amount of training data consumed, the multi-tasking models learn faster; (iii) in low-resource conditions, the multi-tasking significantly improves the model; (iv) the more fine-grained annotation of the source as the secondary task, the higher benefit to MT.en_US
uk.file-availabilityV
uk.publication.placePrahacs_CZ
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.code1


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV