Rich Features in Phrase-Based Machine Translation

Kos, Kamil

Bohaté rysy ve frázovém strojovém překladu

rigorózní práce (NEOBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (106.0Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/35511

Identifikátory

SIS: 102384

Katalog UK: 990015694230106986

Kolekce

Kvalifikační práce [12356]

Autor

Kos, Kamil

Oponent práce

Žabokrtský, Zdeněk

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Matematická lingvistika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

2. 3. 2011

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Neprospěl/a

Klíčová slova (česky)

strojový překlad, hodnocení kvality, kontextový model, suffixové pole

Klíčová slova (anglicky)

machine translation, quality evaluation, source-context model, suffix array

Název práce: Bohaté rysy ve frázovém strojovém překladu Autor: Kamil Kos Katedra (ústav): Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: RNDr. Ondřej Bojar, Ph.D. e-mail vedoucího: bojar@ufal.mff.cuni.cz Klíčová slova: strojový překlad, hodnocení kvality, kontextový model, suffixové pole Abstrakt: V této práci zkoumáme metody, jak zlepšit kvalitu statistického strojového překladu použitím bohaté lingvistické informace. Nejdříve popíšeme SemPOS - metriku, která využívá mělké sémantické reprezentace vět k hodnocení kvality strojového překladu. Ukážeme, že i když tato metrika dosahuje vysoké korelace s lidskými hodnoceními kvality překladu, není samostatně vhodná pro optimalizaci parametrů systémů strojové- ho překladu. Za druhé rozšíříme základní log-lineární model používaný ve statistickém strojovém překladu o kontextový model zdrojové věty, který pomáhá lépe rozlišovat mezi různými možnostmi překladu dané fráze a pomáhá vybrat nejvhodnější překlad pro daný kontext v aktuální větě.

Abstrakt (anglicky)

Title: Rich Features in Phrase-Based Machine Translation Author: Kamil Kos Department: Institute of Formal and Applied Linguistics Supervisor: RNDr. Ondřej Bojar, Ph.D. Supervisor's e-mail address: bojar@ufal.mff.cuni.cz Keywords: machine translation, quality evaluation, source-context model, suffix array Abstract: In this thesis we investigate several methods how to improve the quality of statistical machine translation (MT) by using linguistically rich information. First, we describe SemPOS, a metric that uses shallow semantic representation of sentences to evaluate the translation quality. We show that even though this metric has high correlation with human assessment of translation quality it is not directly suitable for system parameter optimization. Second, we extend the log-linear model used in statistical MT by addi- tional source-context model that helps to better distinguish among possible translation options and select the most promising translation for a given context.

Citace dokumentu

Metadata

Zobrazit celý záznam