Pravděpodobnostní překladový slovník

Rouš, Jan

Pravděpodobnostní překladový slovník

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (15.14Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/30597

Identifikátory

SIS: 49374

Katalog UK: 990011325840106986

Oponent práce

Pecina, Pavel

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Počítačová a formální lingvistika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

14. 9. 2009

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Dobře

V této práci popisujeme poloautomatickou metodu trénování pravděpodobnostního překladového slovníku z rozssáhlých automaticky anotovaných paralelních korpusů. Na základě studia překladových chyb a funkce slovníku v rámci překladového systému TectoMT obecně byly navrženy modely různé složitosti. Tyto základní modely byly zkombinovány do hierarchických modelů, jejichž účel je snížit dopad problému řídkých dat. Slovník byl doplněn o rozšíření, která jsou navržena tak, aby odstraňovala časté problémy lexikálního charakteru. Slovník spolu s rozšířeními byl na testovacích datech porovnán s původním slovníkem a výsledky ukazují, že došlo k zvýšení kvality překladu.

Abstrakt (anglicky)

In this work we present the method of semi-automatic training of the probabilistic translation dictionary using large automatically annotated parallel corpora. According to the study of translation errors and the role of translation dictionary within the TectoMt translatio system in general we propose models of various complexity. These basic models were combined to hierarchical models that were designed to reduce impact of the sparse data problem. Various extensions were implemented to deal with common lexical errors. The dictionary along with extensions was compared to the former approach on test data and the results show improved translation quality.

Citace dokumentu

Metadata

Zobrazit celý záznam