Pravděpodobnostní překladový slovník
Pravděpodobnostní překladový slovník
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/30597Identifiers
Study Information System: 49374
Collections
- Kvalifikační práce [11322]
Author
Advisor
Referee
Pecina, Pavel
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational and Formal Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
14. 9. 2009
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Good
V této práci popisujeme poloautomatickou metodu trénování pravděpodobnostního překladového slovníku z rozssáhlých automaticky anotovaných paralelních korpusů. Na základě studia překladových chyb a funkce slovníku v rámci překladového systému TectoMT obecně byly navrženy modely různé složitosti. Tyto základní modely byly zkombinovány do hierarchických modelů, jejichž účel je snížit dopad problému řídkých dat. Slovník byl doplněn o rozšíření, která jsou navržena tak, aby odstraňovala časté problémy lexikálního charakteru. Slovník spolu s rozšířeními byl na testovacích datech porovnán s původním slovníkem a výsledky ukazují, že došlo k zvýšení kvality překladu.
In this work we present the method of semi-automatic training of the probabilistic translation dictionary using large automatically annotated parallel corpora. According to the study of translation errors and the role of translation dictionary within the TectoMt translatio system in general we propose models of various complexity. These basic models were combined to hierarchical models that were designed to reduce impact of the sparse data problem. Various extensions were implemented to deal with common lexical errors. The dictionary along with extensions was compared to the former approach on test data and the results show improved translation quality.