Mutual Relation of Machine Translation and Quality Estimation

Tryhubyshyn, Iryna

Vzájemný vztah strojového překladu a odhadu kvality

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (347.3Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/175591

Identifikátory

SIS: 218943

Konzultant práce

Bojar, Ondřej

Oponent práce

Popel, Martin

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Umělá inteligence

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

7. 9. 2022

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

strojový překlad|odhad kvality|strojové učení|hluboké učení

Klíčová slova (anglicky)

machine translation|quality estimation|machine learning|deep learning

Odhad kvality strojového překladu předpovídá skóre kvality pro překlady vytvořené systémy strojového překladu na vstupních a výstupních segmentů. Systémy odhadu kval- ity jsou trénované pomoci učení s učitelem pomocí trénovacích dat, která obsahují překlad vytvořený jedním nebo více systémy strojového překladu. Výběr trénovacích dat pro stro- jový překlad má tedy vliv na to, jak dobře funguje systém odhadu kvality. Tato práce studuje vztah mezi systémy strojového překladu a systémy pro odhad kvality na úrovni vět. S využitím našich definic výkonu systému strojového překladu a výkonu systému odhadu kvality jsme provedli experimenty, které zahrnují trénovaní sys- témů strojového překladu a odhadu kvality různých výkonů. Prezentovali jsme výsledky hodnocení systémů odhadu kvality na testovacích sadách různých domén překládáných strojovými překládačí různé síly. Zjistili jsme, že (i) systémy hodnocení kvality vyškolené na překladech nižší kvality mají vyšší výkon, než systémy hodnocení kvality trénované na překladech vyšší kvality; (ii) hodnocení vysoce kvalitních systémů strojového překladu je výzvou pro systémy hodnocení kvality všech výkonů; (iii) vysoce výkonné systémy pro odhad kvality fungují lépe pro domény odlišné od trénovací, než systémy pro odhad kvality s nízkým výkonem 1

Abstrakt (anglicky)

Machine Translation Quality Estimation predicts quality scores for translations pro- duced by Machine Translation systems based on source and output segments. Qual- ity Estimation systems are usually trained in a supervised manner using training data that contains translation produced by one or more (other) Machine Translation systems. Therefore, the choice of training data for Machine Translation has an impact on how well the Quality Estimation system works. This thesis studies the relationship between Machine Translation systems and sentence- level Quality Estimation systems. Using our definitions of Machine Translation system power and Quality Estimation system power, we conducted experiments that involve training Machine Translation and Quality Estimation systems of varying power. We pre- sented Quality Estimation systems evaluation results on test sets of different domains and translated by Machine Translation systems of different power. We find that (i) Quality Estimation systems trained on translations of lower quality outperform Quality Estimation systems trained on translations of higher quality; (ii) evaluating high-quality Machine Translation systems is challenging for Quality Estimation systems of all powers; (iii) high-power Quality Estimation systems work better for out-of-domain distribution...

Citace dokumentu

Metadata

Zobrazit celý záznam