dc.contributor.advisor | Žabokrtský, Zdeněk | |
dc.creator | Green, Nathan David | |
dc.date.accessioned | 2018-11-30T13:05:59Z | |
dc.date.available | 2018-11-30T13:05:59Z | |
dc.date.issued | 2013 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/57450 | |
dc.description.abstract | Dependency parsing is an integral part of Natural Language Processing (NLP) research for many languages. Research in dependency parsing has mainly dealt with improving accuracy for a limited number of languages. Current de- pendency parsing algorithms have developed mainly for languages with an ample amount of training data. Most of this data has been collected for shared tasks at conferences and are available mainly for European and resource-rich languages. New researchers into the area may not know which algorithm and techniques work best with a new, untested, language. To address this issue, we will look at ensemble approaches to dependency parsing. More specifically, we look at three methods. First, stacking parsers' outputs into a weighted graph and extracting a tree structure using simple voting. Second, analyzing each parsers' errors distribution and using that as an input into the weighted graph through fuzzy clustering methods. Third, using a meta-classifier to choose the best parser for each and every word in our input. The parsers in each situation may come from a variety of techniques such as graph-based, transition-based, and constituent conversion. Using a variety of parsers allows us to study the errors associated with the parsers and choose the best combination or individual parser for each... | en_US |
dc.description.abstract | Závislostní syntaktická analýza věty je jedním za základních výzkumných témat v oblasti zpracování přirozeného jazyka. Výzkum algoritmů pro závislostní analýzu byl dosud zaměřen především na omezené množství jazyků, pro které existuje dostatek trénovacích dat (převážně jde o evropské jazyky). Z dosavadního výzkumu tedy není snadné vyvodit, který algoritmus bude nejvhodnější pro některý další jazyk. Řešení, které navrhujeme, je pracovat místo jednotlivého analyzátoru se souborem několika analyzátorů. Konkrétně zkoumáme tři metody. Zaprvé, sloučíme výstupy jednotlivých analyzátorů do grafu a výsledný závislostní strom sestavíme prostřednictvím hlasování analyzátorů na jednotlivých uzlech. Zadruhé, váhy jednotlivých závislostních hran v grafu určíme na základě seskupení analyzátorů pomocí metody fuzzy clustering, jejímž vstupem je zde rozložení chyb jednotlivých analyzátorů napříč slovními druhy. Zatřetí, implementujeme meta-klasifikátor, který pro každé slovo v dané větě určí nejdůvěryhodnější analyzátor. Závislostní analyzátory, které používáme, jsou založeny na několika odlišných technikách -. jde o grafové analyzátory, přechodové analyzátory a analyzátory spočívající v konverzi ze složkových stromů. Právě tato škála různých analyzátorů nám umožňuje studovat chyby spojené s jednotlivými technikami a vybrat... | cs_CZ |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.title | Improvements to Syntax-based Machine Translation using Ensemble Dependency Parsers | en_US |
dc.type | dizertační práce | cs_CZ |
dcterms.created | 2013 | |
dcterms.dateAccepted | 2013-09-24 | |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 99980 | |
dc.title.translated | Využití kombinace závislostních syntaktických analyzátorů pro zlepšení kvality strojového překladu | cs_CZ |
dc.contributor.referee | Bick, Eckhard | |
dc.contributor.referee | Zeman, Daniel | |
dc.identifier.aleph | 001636898 | |
thesis.degree.name | Ph.D. | |
thesis.degree.level | doktorské | cs_CZ |
thesis.degree.discipline | Matematická lingvistika | cs_CZ |
thesis.degree.discipline | Mathematical Linguistics | en_US |
thesis.degree.program | Informatics | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | dizertační práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Matematická lingvistika | cs_CZ |
uk.degree-discipline.en | Mathematical Linguistics | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Informatics | en_US |
thesis.grade.cs | Prospěl/a | cs_CZ |
thesis.grade.en | Pass | en_US |
uk.abstract.cs | Závislostní syntaktická analýza věty je jedním za základních výzkumných témat v oblasti zpracování přirozeného jazyka. Výzkum algoritmů pro závislostní analýzu byl dosud zaměřen především na omezené množství jazyků, pro které existuje dostatek trénovacích dat (převážně jde o evropské jazyky). Z dosavadního výzkumu tedy není snadné vyvodit, který algoritmus bude nejvhodnější pro některý další jazyk. Řešení, které navrhujeme, je pracovat místo jednotlivého analyzátoru se souborem několika analyzátorů. Konkrétně zkoumáme tři metody. Zaprvé, sloučíme výstupy jednotlivých analyzátorů do grafu a výsledný závislostní strom sestavíme prostřednictvím hlasování analyzátorů na jednotlivých uzlech. Zadruhé, váhy jednotlivých závislostních hran v grafu určíme na základě seskupení analyzátorů pomocí metody fuzzy clustering, jejímž vstupem je zde rozložení chyb jednotlivých analyzátorů napříč slovními druhy. Zatřetí, implementujeme meta-klasifikátor, který pro každé slovo v dané větě určí nejdůvěryhodnější analyzátor. Závislostní analyzátory, které používáme, jsou založeny na několika odlišných technikách -. jde o grafové analyzátory, přechodové analyzátory a analyzátory spočívající v konverzi ze složkových stromů. Právě tato škála různých analyzátorů nám umožňuje studovat chyby spojené s jednotlivými technikami a vybrat... | cs_CZ |
uk.abstract.en | Dependency parsing is an integral part of Natural Language Processing (NLP) research for many languages. Research in dependency parsing has mainly dealt with improving accuracy for a limited number of languages. Current de- pendency parsing algorithms have developed mainly for languages with an ample amount of training data. Most of this data has been collected for shared tasks at conferences and are available mainly for European and resource-rich languages. New researchers into the area may not know which algorithm and techniques work best with a new, untested, language. To address this issue, we will look at ensemble approaches to dependency parsing. More specifically, we look at three methods. First, stacking parsers' outputs into a weighted graph and extracting a tree structure using simple voting. Second, analyzing each parsers' errors distribution and using that as an input into the weighted graph through fuzzy clustering methods. Third, using a meta-classifier to choose the best parser for each and every word in our input. The parsers in each situation may come from a variety of techniques such as graph-based, transition-based, and constituent conversion. Using a variety of parsers allows us to study the errors associated with the parsers and choose the best combination or individual parser for each... | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
thesis.grade.code | P | |
dc.identifier.lisID | 990016368980106986 | |