Využití lingvistických informací při EBMT
The Exploitation of Linguistic Information in EBMT
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/13258Identifikátory
SIS: 44250
Kolekce
- Kvalifikační práce [10690]
Autor
Vedoucí práce
Oponent práce
Žabokrtský, Zdeněk
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Počítačová a formální lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
11. 9. 2007
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Metoda strojového překladu založená na příkladech (EBMT) je korpusová metoda strojového překladu, která se pokouší získat překlad vstupního textu pomocí analogie s překladem textu podobného již hotového. Tato práce zkoumá význam využití lingvistické informace v této metodě překladu, a to konkrétně na dvou jazykových párech: čeština-angličtina a čeština-němčina. Zahrnuje shromáždění anotovaných paralelních dat pro jazykový pár čeština-němčina, návrh experimentálního EBMT systému, jeho implementaci a vylepšování jeho části s použitím lingvistických informací. Práce také obsahuje podrobné vyhodnocení jak výchozího systému, tak systému využívajícího informace o morfologii a syntaxi a jejich porovnání. Vyhodnocení systému bylo provedeno jednak automatickými metodami BLEU, NIST a METEOR a jednak ručně za pomoci anotátorů. Lingvistické informace aplikované na experimentální EBMT systém zahrnují morfologické a syntaktické porovnávání vstupní věty s příklady v překladové paměti.
Example-based machine translation (EBMT) is a corpus-driven method of machine translation. It builds the translation using analogy of the input text with a translation already made. The benefit of using linguistic knowledge within EBMT is the subject of this thesis. Two language pairs are covered: Czech-English and Czech-German. The thesis covers gathering annotated parallel Czech-German data, design and implementation process of an experimental EBMT system, and the effort to improve it using linguistic knowledge. Detailed evaluation and comparison of both the baseline EBMT and the linguistically enhanced system are described. Evaluation has been done using machine and human evaluation methods. The three automatic evaluation methods are BLEU, NIST and METEOR. The linguistic enhancement of the baseline EBMT system includes comparisons of the input sentence with the examples in the translation memory based on morphology and syntax.