Mutual Relation of Machine Translation and Quality Estimation
Vzájemný vztah strojového překladu a odhadu kvality
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/175591Identifiers
Study Information System: 218943
Collections
- Kvalifikační práce [11972]
Author
Advisor
Consultant
Bojar, Ondřej
Referee
Popel, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Artificial Intelligence
Department
Institute of Formal and Applied Linguistics
Date of defense
7. 9. 2022
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
strojový překlad|odhad kvality|strojové učení|hluboké učeníKeywords (English)
machine translation|quality estimation|machine learning|deep learningOdhad kvality strojového překladu předpovídá skóre kvality pro překlady vytvořené systémy strojového překladu na vstupních a výstupních segmentů. Systémy odhadu kval- ity jsou trénované pomoci učení s učitelem pomocí trénovacích dat, která obsahují překlad vytvořený jedním nebo více systémy strojového překladu. Výběr trénovacích dat pro stro- jový překlad má tedy vliv na to, jak dobře funguje systém odhadu kvality. Tato práce studuje vztah mezi systémy strojového překladu a systémy pro odhad kvality na úrovni vět. S využitím našich definic výkonu systému strojového překladu a výkonu systému odhadu kvality jsme provedli experimenty, které zahrnují trénovaní sys- témů strojového překladu a odhadu kvality různých výkonů. Prezentovali jsme výsledky hodnocení systémů odhadu kvality na testovacích sadách různých domén překládáných strojovými překládačí různé síly. Zjistili jsme, že (i) systémy hodnocení kvality vyškolené na překladech nižší kvality mají vyšší výkon, než systémy hodnocení kvality trénované na překladech vyšší kvality; (ii) hodnocení vysoce kvalitních systémů strojového překladu je výzvou pro systémy hodnocení kvality všech výkonů; (iii) vysoce výkonné systémy pro odhad kvality fungují lépe pro domény odlišné od trénovací, než systémy pro odhad kvality s nízkým výkonem 1
Machine Translation Quality Estimation predicts quality scores for translations pro- duced by Machine Translation systems based on source and output segments. Qual- ity Estimation systems are usually trained in a supervised manner using training data that contains translation produced by one or more (other) Machine Translation systems. Therefore, the choice of training data for Machine Translation has an impact on how well the Quality Estimation system works. This thesis studies the relationship between Machine Translation systems and sentence- level Quality Estimation systems. Using our definitions of Machine Translation system power and Quality Estimation system power, we conducted experiments that involve training Machine Translation and Quality Estimation systems of varying power. We pre- sented Quality Estimation systems evaluation results on test sets of different domains and translated by Machine Translation systems of different power. We find that (i) Quality Estimation systems trained on translations of lower quality outperform Quality Estimation systems trained on translations of higher quality; (ii) evaluating high-quality Machine Translation systems is challenging for Quality Estimation systems of all powers; (iii) high-power Quality Estimation systems work better for out-of-domain distribution...
