Přibližná extrakce frázové tabulky z velkého paralelního korpusu
Přibližná extrakce frázové tabulky z velkého paralelního korpusu
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/52071Identifikátory
SIS: 62764
Kolekce
- Kvalifikační práce [10691]
Autor
Vedoucí práce
Oponent práce
Tamchyna, Aleš
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
2. 9. 2013
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
frázová překladová tabulka, Lossy Counting algoritmus, epochální extrakceKlíčová slova (anglicky)
phrase translation table, Lossy Counting algorithm, epochal extractionCílem této práce je ověření praktické použitelnosti algoritmu pro přibližné počítání četností jako základu pro implementaci filtru frázových tabulek v systémech pro statistický strojový překlad. Algoritmus navíc dokáže odstranit fráze s nízkou četností přímo během extrakce tabulky. Provedená implementace umožnila vytvářet značně filtrované tabulky, které však v měřeních kvality překladu pomocí automatické metriky BLEU dosahovaly obdobných skóre jako nefiltrované tabulky. Důležitým výsledkem této práce je plně funkční program pro extrakci frázových tabulek, pojmenovaný eppex, schopný nahradit stávající programy se stejnou funkčností, jež jsou součástí volně šířitelného systému pro statistický strojový překlad Moses. Značná část práce je věnována experimentálnímu vyhodnocení systémových nároků programu a kvality vytvářených frázových tabulek, při kterém jsou jako trénovací data použity paralelní korpusy o celkové velikosti 2 miliard slov. Powered by TCPDF (www.tcpdf.org)
The aim of this work is to examine the applicability of an algorithm for approximate frequency counting to act as an on-the-fly filter in the process of phrase table extraction in Statistical Machine Translation systems. Its implementation allows for the bulk of extracted phrase pairs to be much reduced with no significant loss to the ultimate quality of the phrase-based translation model as measured by the state-of-the-art evaluation measure BLEU. The result of this implementation is a fully working program, called eppex, capable of acting as an alternative to the existing tools for phrase table creation and filtration that are part of the open-source SMT system Moses. A substantial part of this work is devoted to the benchmarking of both the runtime performance and the quality of produced phrase tables achieved by the program when confronted with parallel training data comprised of 2 billions of words. Powered by TCPDF (www.tcpdf.org)