Discovering the structure of natural language sentences by semi-supervised methods

Rosa, Rudolf

Hledání struktury vět přirozeného jazyka pomocí částečně řízených metod

dc.contributor.advisor	Žabokrtský, Zdeněk
dc.creator	Rosa, Rudolf
dc.date.accessioned	2018-09-28T10:01:35Z
dc.date.available	2018-09-28T10:01:35Z
dc.date.issued	2018
dc.identifier.uri	http://hdl.handle.net/20.500.11956/101340
dc.description.abstract	Discovering the structure of natural language sentences by semi-supervised methods Rudolf Rosa In this thesis, we focus on the problem of automatically syntactically ana- lyzing a language for which there is no syntactically annotated training data. We explore several methods for cross-lingual transfer of syntactic as well as morphological annotation, ultimately based on utilization of bilingual or multi- lingual sentence-aligned corpora and machine translation approaches. We pay particular attention to automatic estimation of the appropriateness of a source language for the analysis of a given target language, devising a novel measure based on the similarity of part-of-speech sequences frequent in the languages. The effectiveness of the presented methods has been confirmed by experiments conducted both by us as well as independently by other respectable researchers. 1	en_US
dc.description.abstract	Odhalování struktury vět přirozeného jazyka pomocí částečně řízených metod Rudolf Rosa V této dizertaci se zaměřujeme na problém automatického syntaktického rozboru jazyků, pro něž nejsou k dispozici žádná syntakticky anotovaná trénovací data. Zkoumáme několik metod mezijazyčného přenosu syntaktické i morfo- logické anotace, a nakonec docházíme k metodám založeným na využití dvo- jjazyčných či vícejazyčných korpů zarovnaných na úrovni vět, a strojového překladu. Zvláštní pozornost věnujeme automatickému odhadování vhodnosti zdrojového jazyka pro analýzu daného cílového jazyka, a navrhujeme novou míru založenou na podobnostech častých sledů slovních druhů. Účinnost představených postupů byla ověřena jak v našich pokusech, tak nezávisle v pracech uznávaných světových vědců. 1	cs_CZ
dc.language	English	cs_CZ
dc.language.iso	en_US
dc.publisher	Univerzita Karlova, Matematicko-fyzikální fakulta	cs_CZ
dc.subject	dependency parsing	en_US
dc.subject	part-of-speech tagging	en_US
dc.subject	cross-lingual processing	en_US
dc.subject	multilingual processing	en_US
dc.subject	závislostní větný rozbor	cs_CZ
dc.subject	značkování slovních druhů	cs_CZ
dc.subject	mezijazyčné zpracování jazyka	cs_CZ
dc.subject	vícejazyčné zpracování jazyka	cs_CZ
dc.title	Discovering the structure of natural language sentences by semi-supervised methods	en_US
dc.type	dizertační práce	cs_CZ
dcterms.created	2018
dcterms.dateAccepted	2018-06-14
dc.description.department	Institute of Formal and Applied Linguistics	en_US
dc.description.department	Ústav formální a aplikované lingvistiky	cs_CZ
dc.description.faculty	Matematicko-fyzikální fakulta	cs_CZ
dc.description.faculty	Faculty of Mathematics and Physics	en_US
dc.identifier.repId	136514
dc.title.translated	Hledání struktury vět přirozeného jazyka pomocí částečně řízených metod	cs_CZ
dc.contributor.referee	Tiedemann, Jörg
dc.contributor.referee	Horák, Aleš
thesis.degree.name	Ph.D.
thesis.degree.level	doktorské	cs_CZ
thesis.degree.discipline	Mathematical Linguistics	en_US
thesis.degree.discipline	Matematická lingvistika	cs_CZ
thesis.degree.program	Informatics	en_US
thesis.degree.program	Informatika	cs_CZ
uk.thesis.type	dizertační práce	cs_CZ
uk.taxonomy.organization-cs	Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky	cs_CZ
uk.taxonomy.organization-en	Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics	en_US
uk.faculty-name.cs	Matematicko-fyzikální fakulta	cs_CZ
uk.faculty-name.en	Faculty of Mathematics and Physics	en_US
uk.faculty-abbr.cs	MFF	cs_CZ
uk.degree-discipline.cs	Matematická lingvistika	cs_CZ
uk.degree-discipline.en	Mathematical Linguistics	en_US
uk.degree-program.cs	Informatika	cs_CZ
uk.degree-program.en	Informatics	en_US
thesis.grade.cs	Prospěl/a	cs_CZ
thesis.grade.en	Pass	en_US
uk.abstract.cs	Odhalování struktury vět přirozeného jazyka pomocí částečně řízených metod Rudolf Rosa V této dizertaci se zaměřujeme na problém automatického syntaktického rozboru jazyků, pro něž nejsou k dispozici žádná syntakticky anotovaná trénovací data. Zkoumáme několik metod mezijazyčného přenosu syntaktické i morfo- logické anotace, a nakonec docházíme k metodám založeným na využití dvo- jjazyčných či vícejazyčných korpů zarovnaných na úrovni vět, a strojového překladu. Zvláštní pozornost věnujeme automatickému odhadování vhodnosti zdrojového jazyka pro analýzu daného cílového jazyka, a navrhujeme novou míru založenou na podobnostech častých sledů slovních druhů. Účinnost představených postupů byla ověřena jak v našich pokusech, tak nezávisle v pracech uznávaných světových vědců. 1	cs_CZ
uk.abstract.en	Discovering the structure of natural language sentences by semi-supervised methods Rudolf Rosa In this thesis, we focus on the problem of automatically syntactically ana- lyzing a language for which there is no syntactically annotated training data. We explore several methods for cross-lingual transfer of syntactic as well as morphological annotation, ultimately based on utilization of bilingual or multi- lingual sentence-aligned corpora and machine translation approaches. We pay particular attention to automatic estimation of the appropriateness of a source language for the analysis of a given target language, devising a novel measure based on the similarity of part-of-speech sequences frequent in the languages. The effectiveness of the presented methods has been confirmed by experiments conducted both by us as well as independently by other respectable researchers. 1	en_US
uk.file-availability	V
uk.publication.place	Praha	cs_CZ
uk.grantor	Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky	cs_CZ
thesis.grade.code	P