Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Mareček, David

Automatické párování tektogramatických stromů z česko-anglického paralelního korpusu

rigorózní práce (UZNÁNO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (117.4Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/32908

Identifikátory

SIS: 97736

Katalog UK: 990012879490106986

Kolekce

Kvalifikační práce [12356]

Autor

Mareček, David

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Matematická lingvistika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

20. 1. 2011

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Uznáno

Klíčová slova (česky)

tektogramatická rovina, word alignment, strojový překlad

Klíčová slova (anglicky)

tectogrammatical trees, word alignment, machine translation

Název práce: Automatické párování tektogramatických stromů z česko-anglického paralelního korpusu Autor: David Mareček Katedra (ústav): Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: Ing. Zdeněk Žabokrtský, Ph.D. Abstrakt: Cílem této práce je implementovat a zhodnotit softwarový nástroj pro automatické zarovnávání (alignment) českých a anglických tektogramatických stromů. Úkolem je najít odpovídajicí si uzly stromů, které reprezentují anglickou větu a její český překlad. Velké množství zarovnaných stromů získaných z paralelního korpusu může být užitečné pro trénování modelu pro transfer strojového překladu. Zároveň může posloužit lingvistům při studování překladových ekvivalentů mezi dvěma jazyky. Výsledky našich experimentů ukazují, že přesunutím problému alignmentu ze slovní roviny na tektogramatickou (a) zvýšíme mezianotátorskou shodu (b) můžeme vytvořit alignovací algoritmus, který využívá i stromovou strukturu věty a překoná nástroj pro alignment GIZA++ spuštěný na uzly tektogramatických stromů. To je pravděpodobně zapříčiněno tím, že tektogramatické reprezentace českých a anglických vět si jsou mnohem podobnější než samotné věty na povrchu. Klíčová slova: tektogramatická rovina, word alignment, strojový překlad

Abstrakt (anglicky)

Title: Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus Author: David Mareček Department: Institute of Formal and Applied Linguistics Supervisor: Ing. Zdeněk Žabokrtský, Ph.D. Abstract: The goal of this thesis is to implement and evaluate a software tool for automatic alignment of Czech and English tectogrammatical trees. The task is to find correspondent nodes between two trees that represent an English sentence and its Czech translation. Great amount of aligned trees acquired from parallel corpora can be used for training transfer models for machine translation systems. It is also useful for linguists in studying translation equivalents in two languages. In this thesis there is also described word alignment annotation process. The manual word alignment was necessary for evaluation of the aligner. The results of our experiments show that shifting the alignment task from the word layer to the tectogrammatical layer both (a) increases the interannotator agreement on the task and (b) allows to construct a feature-based algorithm which uses sentence structure and which outperforms the GIZA++ aligner in terms of f-measure on aligned tectogrammatical node pairs. This is probably caused by the fact that tectogrammatical representations of Czech and English sentences are much closer...

Citace dokumentu

Metadata

Zobrazit celý záznam