Discovering the structure of natural language sentences by semi-supervised methods
Hledání struktury vět přirozeného jazyka pomocí částečně řízených metod
dissertation thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/101340Identifiers
Study Information System: 136514
Collections
- Kvalifikační práce [11322]
Author
Advisor
Referee
Tiedemann, Jörg
Horák, Aleš
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Mathematical Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
14. 6. 2018
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Pass
Keywords (Czech)
závislostní větný rozbor, značkování slovních druhů, mezijazyčné zpracování jazyka, vícejazyčné zpracování jazykaKeywords (English)
dependency parsing, part-of-speech tagging, cross-lingual processing, multilingual processingOdhalování struktury vět přirozeného jazyka pomocí částečně řízených metod Rudolf Rosa V této dizertaci se zaměřujeme na problém automatického syntaktického rozboru jazyků, pro něž nejsou k dispozici žádná syntakticky anotovaná trénovací data. Zkoumáme několik metod mezijazyčného přenosu syntaktické i morfo- logické anotace, a nakonec docházíme k metodám založeným na využití dvo- jjazyčných či vícejazyčných korpů zarovnaných na úrovni vět, a strojového překladu. Zvláštní pozornost věnujeme automatickému odhadování vhodnosti zdrojového jazyka pro analýzu daného cílového jazyka, a navrhujeme novou míru založenou na podobnostech častých sledů slovních druhů. Účinnost představených postupů byla ověřena jak v našich pokusech, tak nezávisle v pracech uznávaných světových vědců. 1
Discovering the structure of natural language sentences by semi-supervised methods Rudolf Rosa In this thesis, we focus on the problem of automatically syntactically ana- lyzing a language for which there is no syntactically annotated training data. We explore several methods for cross-lingual transfer of syntactic as well as morphological annotation, ultimately based on utilization of bilingual or multi- lingual sentence-aligned corpora and machine translation approaches. We pay particular attention to automatic estimation of the appropriateness of a source language for the analysis of a given target language, devising a novel measure based on the similarity of part-of-speech sequences frequent in the languages. The effectiveness of the presented methods has been confirmed by experiments conducted both by us as well as independently by other respectable researchers. 1