Automatic Error Correction of Machine Translation Output
Automatická korektura chyb ve výstupu strojového překladu
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/82960Identifiers
Study Information System: 167264
Collections
- Kvalifikační práce [10932]
Author
Advisor
Referee
Mareček, David
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
8. 9. 2016
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
automatická post-editace, strojový překlad, strojové učení s dohledem, zpracování přirozeného jazyka, TreexKeywords (English)
automatic post-editing, machine translation, supervised machine learning, natural language processing, TreexPředstavujeme MLFix, systém pro automatickou statistickou post-editaci, který je duchovním následníkem pravidlového systému, Depfixu. Cílem této práce bylo prozkoumat možné postupy automatické identifikace nejčastějších morfologických chyb tvořených současnými systémy pro strojový překlad a natrénovat vhodné statistické modely, které by byly postaveny na získaných znalostech. Provedli jsme automatickou i ruční evaluaci našeho systému a výsledky porovnali s Depfixem. Systém byl vyvíjen především na výstupech anglicko-českého strojového překladu, cílem ale bylo zobecnit post-editační proces tak, aby byl aplikovatelný na další jazykové páry. Upravili jsme původní pipeline, aby post-editovala výstupy anglicko-německého strojového překladu, a provedli dodatečnou evaluaci této modifikace. Powered by TCPDF (www.tcpdf.org)
We present MLFix, an automatic statistical post-editing system, which is a spiritual successor to the rule- based system, Depfix. The aim of this thesis was to investigate the possible approaches to automatic identification of the most common morphological errors produced by the state-of-the-art machine translation systems and to train sufficient statistical models built on the acquired knowledge. We performed both automatic and manual evaluation of the system and compared the results with Depfix. The system was mainly developed on the English-to- Czech machine translation output, however, the aim was to generalize the post-editing process so it can be applied to other language pairs. We modified the original pipeline to post-edit English-German machine translation output and performed additional evaluation of this modification. Powered by TCPDF (www.tcpdf.org)