Improvements to Syntax-based Machine Translation using Ensemble Dependency Parsers

Green, Nathan David

Využití kombinace závislostních syntaktických analyzátorů pro zlepšení kvality strojového překladu

dc.contributor.advisor	Žabokrtský, Zdeněk
dc.creator	Green, Nathan David
dc.date.accessioned	2018-11-30T13:05:59Z
dc.date.available	2018-11-30T13:05:59Z
dc.date.issued	2013
dc.identifier.uri	http://hdl.handle.net/20.500.11956/57450
dc.description.abstract	Dependency parsing is an integral part of Natural Language Processing (NLP) research for many languages. Research in dependency parsing has mainly dealt with improving accuracy for a limited number of languages. Current de- pendency parsing algorithms have developed mainly for languages with an ample amount of training data. Most of this data has been collected for shared tasks at conferences and are available mainly for European and resource-rich languages. New researchers into the area may not know which algorithm and techniques work best with a new, untested, language. To address this issue, we will look at ensemble approaches to dependency parsing. More specifically, we look at three methods. First, stacking parsers' outputs into a weighted graph and extracting a tree structure using simple voting. Second, analyzing each parsers' errors distribution and using that as an input into the weighted graph through fuzzy clustering methods. Third, using a meta-classifier to choose the best parser for each and every word in our input. The parsers in each situation may come from a variety of techniques such as graph-based, transition-based, and constituent conversion. Using a variety of parsers allows us to study the errors associated with the parsers and choose the best combination or individual parser for each...	en_US
dc.description.abstract	Závislostní syntaktická analýza věty je jedním za základních výzkumných témat v oblasti zpracování přirozeného jazyka. Výzkum algoritmů pro závislostní analýzu byl dosud zaměřen především na omezené množství jazyků, pro které existuje dostatek trénovacích dat (převážně jde o evropské jazyky). Z dosavadního výzkumu tedy není snadné vyvodit, který algoritmus bude nejvhodnější pro některý další jazyk. Řešení, které navrhujeme, je pracovat místo jednotlivého analyzátoru se souborem několika analyzátorů. Konkrétně zkoumáme tři metody. Zaprvé, sloučíme výstupy jednotlivých analyzátorů do grafu a výsledný závislostní strom sestavíme prostřednictvím hlasování analyzátorů na jednotlivých uzlech. Zadruhé, váhy jednotlivých závislostních hran v grafu určíme na základě seskupení analyzátorů pomocí metody fuzzy clustering, jejímž vstupem je zde rozložení chyb jednotlivých analyzátorů napříč slovními druhy. Zatřetí, implementujeme meta-klasifikátor, který pro každé slovo v dané větě určí nejdůvěryhodnější analyzátor. Závislostní analyzátory, které používáme, jsou založeny na několika odlišných technikách -. jde o grafové analyzátory, přechodové analyzátory a analyzátory spočívající v konverzi ze složkových stromů. Právě tato škála různých analyzátorů nám umožňuje studovat chyby spojené s jednotlivými technikami a vybrat...	cs_CZ
dc.language	English	cs_CZ
dc.language.iso	en_US
dc.publisher	Univerzita Karlova, Matematicko-fyzikální fakulta	cs_CZ
dc.title	Improvements to Syntax-based Machine Translation using Ensemble Dependency Parsers	en_US
dc.type	dizertační práce	cs_CZ
dcterms.created	2013
dcterms.dateAccepted	2013-09-24
dc.description.department	Ústav formální a aplikované lingvistiky	cs_CZ
dc.description.department	Institute of Formal and Applied Linguistics	en_US
dc.description.faculty	Faculty of Mathematics and Physics	en_US
dc.description.faculty	Matematicko-fyzikální fakulta	cs_CZ
dc.identifier.repId	99980
dc.title.translated	Využití kombinace závislostních syntaktických analyzátorů pro zlepšení kvality strojového překladu	cs_CZ
dc.contributor.referee	Bick, Eckhard
dc.contributor.referee	Zeman, Daniel
dc.identifier.aleph	001636898
thesis.degree.name	Ph.D.
thesis.degree.level	doktorské	cs_CZ
thesis.degree.discipline	Matematická lingvistika	cs_CZ
thesis.degree.discipline	Mathematical Linguistics	en_US
thesis.degree.program	Informatics	en_US
thesis.degree.program	Informatika	cs_CZ
uk.thesis.type	dizertační práce	cs_CZ
uk.taxonomy.organization-cs	Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky	cs_CZ
uk.taxonomy.organization-en	Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics	en_US
uk.faculty-name.cs	Matematicko-fyzikální fakulta	cs_CZ
uk.faculty-name.en	Faculty of Mathematics and Physics	en_US
uk.faculty-abbr.cs	MFF	cs_CZ
uk.degree-discipline.cs	Matematická lingvistika	cs_CZ
uk.degree-discipline.en	Mathematical Linguistics	en_US
uk.degree-program.cs	Informatika	cs_CZ
uk.degree-program.en	Informatics	en_US
thesis.grade.cs	Prospěl/a	cs_CZ
thesis.grade.en	Pass	en_US
uk.abstract.cs	Závislostní syntaktická analýza věty je jedním za základních výzkumných témat v oblasti zpracování přirozeného jazyka. Výzkum algoritmů pro závislostní analýzu byl dosud zaměřen především na omezené množství jazyků, pro které existuje dostatek trénovacích dat (převážně jde o evropské jazyky). Z dosavadního výzkumu tedy není snadné vyvodit, který algoritmus bude nejvhodnější pro některý další jazyk. Řešení, které navrhujeme, je pracovat místo jednotlivého analyzátoru se souborem několika analyzátorů. Konkrétně zkoumáme tři metody. Zaprvé, sloučíme výstupy jednotlivých analyzátorů do grafu a výsledný závislostní strom sestavíme prostřednictvím hlasování analyzátorů na jednotlivých uzlech. Zadruhé, váhy jednotlivých závislostních hran v grafu určíme na základě seskupení analyzátorů pomocí metody fuzzy clustering, jejímž vstupem je zde rozložení chyb jednotlivých analyzátorů napříč slovními druhy. Zatřetí, implementujeme meta-klasifikátor, který pro každé slovo v dané větě určí nejdůvěryhodnější analyzátor. Závislostní analyzátory, které používáme, jsou založeny na několika odlišných technikách -. jde o grafové analyzátory, přechodové analyzátory a analyzátory spočívající v konverzi ze složkových stromů. Právě tato škála různých analyzátorů nám umožňuje studovat chyby spojené s jednotlivými technikami a vybrat...	cs_CZ
uk.abstract.en	Dependency parsing is an integral part of Natural Language Processing (NLP) research for many languages. Research in dependency parsing has mainly dealt with improving accuracy for a limited number of languages. Current de- pendency parsing algorithms have developed mainly for languages with an ample amount of training data. Most of this data has been collected for shared tasks at conferences and are available mainly for European and resource-rich languages. New researchers into the area may not know which algorithm and techniques work best with a new, untested, language. To address this issue, we will look at ensemble approaches to dependency parsing. More specifically, we look at three methods. First, stacking parsers' outputs into a weighted graph and extracting a tree structure using simple voting. Second, analyzing each parsers' errors distribution and using that as an input into the weighted graph through fuzzy clustering methods. Third, using a meta-classifier to choose the best parser for each and every word in our input. The parsers in each situation may come from a variety of techniques such as graph-based, transition-based, and constituent conversion. Using a variety of parsers allows us to study the errors associated with the parsers and choose the best combination or individual parser for each...	en_US
uk.file-availability	V
uk.publication.place	Praha	cs_CZ
uk.grantor	Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky	cs_CZ
thesis.grade.code	P
dc.identifier.lisID	990016368980106986