Možnosti zlepšení strojového překladu z angličtiny do češtiny
Možnosti zlepšení strojového překladu z angličtiny do češtiny
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/30599Identifiers
Study Information System: 62681
Collections
- Kvalifikační práce [10690]
Author
Advisor
Referee
Bojar, Ondřej
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
14. 9. 2009
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Tato diplomová práce popisuje strojový překlad z angličtiny do češtiny implementovaný v systému TectoMT. Překlad je založen na transferu přes tektogramatickou rovinu a využívá anotační schéma Pražského závislostního korpusu.Prvotním cílem práce je zlepšení kvality překladu za pomoci pravidlového přístupu i statistických metod. Nejprve je popsána ruční anotace překladových chyb ve vzorku 250 vět a následná analýza častých typů chyb a jejich příčn. Hlavní část textu pak popisuje návrh a provedení úprav, které vedly k vylepšení tří fází překladu: analýzy, transferu a syntézy. Nejvýraznější inovací je využití stromové modi kace skrytých Markovových řetězců (Hidden Markov Tree Models) ve fázi transferu. Dosažené zlepšení je kvantitativně vyhodnoceno pomocí metrik BLEU a NIST.
This thesis describes English-Czech Machine Translation as it is implemented in TectoMT system. The transfer uses deep-syntactic dependency (tectogrammatical) trees and exploits the annotation scheme of Prague Dependency Treebank. The primary goal of the thesis is to improve the translation quality using both rule-base and statistical methods. First, we present a manual annotation of translation errors in 250 sentences and subsequent identi cation of frequent errors, their types and sources. The main part of the thesis describes the design and implementation of modi cations in the three transfer phases: analysis, transfer and synthesis. The most prominent modi cation is a novel approach to the transfer phase based on Hidden Markov Tree Models (a tree modi cation of Hidden Markov Models). The improvements are evaluated in terms of BLEU and NIST scores.