Show simple item record

Neřízená závistlostní analýza
dc.contributor.advisorŽabokrtský, Zdeněk
dc.creatorMareček, David
dc.date.accessioned2018-11-30T14:32:19Z
dc.date.available2018-11-30T14:32:19Z
dc.date.issued2012
dc.identifier.urihttp://hdl.handle.net/20.500.11956/42010
dc.description.abstractUnsupervised dependency parsing is an alternative approach to identifying relations between words in a sentence. It does not require any annotated treebank, it is independent of language theory and universal across languages. However, its main disadvantage is its so far quite low parsing quality. This thesis discusses some previous works and introduces a novel approach to unsupervised parsing. Our dependency model consists of four submodels: (i) edge model, which controls the distribution of governor-dependent pairs, (ii) fertility model, which controls the number of node's dependents, (iii) distance model, which controls the length of the dependency edges, and (iv) reducibility model. The reducibility model is based on a hypothesis that words that can be removed from a sentence without violating its grammaticality are leaves in the dependency tree. Induction of the dependency structures is done using Gibbs sampling method. We introduce a sampling algorithm that keeps the dependency trees projective, which is a very valuable constraint. In our experiments across 30 languages, we discuss the results of various settings of our models. Our method outperforms the previously reported results on a majority of the test languages.en_US
dc.description.abstractNeřízená závislostní analýza je alternativní způsob určování vztahů mezi slovy ve větě. Nepotřebuje žádný anotovaný závislostní korpus, je nezávislý na jazykové teorii a univerzální pro velké množství jazyků. Jeho nevýhodou je ale zatím relativně nízká úspěšnost. V této práci diskutujeme některé předchozí práce a představujeme novou metodu neřízenéhé analýzy. Náš závislostní model se skládá ze čtyř podmodelů: (i) hranový model, který řídí rozdělení dvojic řídících a závislých členů, (ii) model plodnosti, který řídí počet členů závislých na uzlu, (iii) model vzdálenosti, který řídí délku závislostních hran a (iv) model vypustitelnosti. Tento model je založen na předpokladu, že slovaů která se mohou z věty vypustit, aniž by se porušila její gramatičnost jsou v závislostním slově listy. Odvození závislostních struktur provádíme pomocí Gibbsova vzorkovače. Představujeme vzorkovací algoritmus, který zachovovává projektivitu závislostních stromů, cože je velmi užitečnou vlastností. V našich experimentech na 30 jazycích srovnáváme výsledky pro různé parametry modelů. Naše metoda překonávvá dříve publikované výsledky pro většinu zkoumaných jazyků.cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.titleUnsupervised Dependency Parsingen_US
dc.typedizertační prácecs_CZ
dcterms.created2012
dcterms.dateAccepted2012-09-26
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId62316
dc.title.translatedNeřízená závistlostní analýzacs_CZ
dc.contributor.refereeJurčíček, Filip
dc.contributor.refereeSogaard, Anders
dc.identifier.aleph001558545
thesis.degree.namePh.D.
thesis.degree.leveldoktorskécs_CZ
thesis.degree.disciplineMatematická lingvistikacs_CZ
thesis.degree.disciplineMathematical Linguisticsen_US
thesis.degree.programInformaticsen_US
thesis.degree.programInformatikacs_CZ
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csMatematická lingvistikacs_CZ
uk.degree-discipline.enMathematical Linguisticsen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enInformaticsen_US
thesis.grade.csProspěl/acs_CZ
thesis.grade.enPassen_US
uk.abstract.csNeřízená závislostní analýza je alternativní způsob určování vztahů mezi slovy ve větě. Nepotřebuje žádný anotovaný závislostní korpus, je nezávislý na jazykové teorii a univerzální pro velké množství jazyků. Jeho nevýhodou je ale zatím relativně nízká úspěšnost. V této práci diskutujeme některé předchozí práce a představujeme novou metodu neřízenéhé analýzy. Náš závislostní model se skládá ze čtyř podmodelů: (i) hranový model, který řídí rozdělení dvojic řídících a závislých členů, (ii) model plodnosti, který řídí počet členů závislých na uzlu, (iii) model vzdálenosti, který řídí délku závislostních hran a (iv) model vypustitelnosti. Tento model je založen na předpokladu, že slovaů která se mohou z věty vypustit, aniž by se porušila její gramatičnost jsou v závislostním slově listy. Odvození závislostních struktur provádíme pomocí Gibbsova vzorkovače. Představujeme vzorkovací algoritmus, který zachovovává projektivitu závislostních stromů, cože je velmi užitečnou vlastností. V našich experimentech na 30 jazycích srovnáváme výsledky pro různé parametry modelů. Naše metoda překonávvá dříve publikované výsledky pro většinu zkoumaných jazyků.cs_CZ
uk.abstract.enUnsupervised dependency parsing is an alternative approach to identifying relations between words in a sentence. It does not require any annotated treebank, it is independent of language theory and universal across languages. However, its main disadvantage is its so far quite low parsing quality. This thesis discusses some previous works and introduces a novel approach to unsupervised parsing. Our dependency model consists of four submodels: (i) edge model, which controls the distribution of governor-dependent pairs, (ii) fertility model, which controls the number of node's dependents, (iii) distance model, which controls the length of the dependency edges, and (iv) reducibility model. The reducibility model is based on a hypothesis that words that can be removed from a sentence without violating its grammaticality are leaves in the dependency tree. Induction of the dependency structures is done using Gibbs sampling method. We introduce a sampling algorithm that keeps the dependency trees projective, which is a very valuable constraint. In our experiments across 30 languages, we discuss the results of various settings of our models. Our method outperforms the previously reported results on a majority of the test languages.en_US
uk.file-availabilityV
uk.publication-placePrahacs_CZ
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.codeP


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 3-5, 116 36 Praha; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV