Syntaktická analýza textů se střídáním kódů
Syntaktická analýza textů se střídáním kódů
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/101612Identifikátory
SIS: 200731
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Mareček, David
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
11. 9. 2018
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
syntaktická analýza, závislostní analýza, treebank, universal dependencies, střídání kódůKlíčová slova (anglicky)
parsing, dependency parsing, treebank, universal dependencies, code switchingVinit Ravishankar Červenec 2018 Tato diplomová práce si klade dva cíle. Za prvé, snažíme se zkonstruovat závislostní syntaktický analyzátor (parser), který lze aplikovat na korpusy se střídáním kódů, přestože byl natrénován pouze s použitím jednojazyčných ko- rpusů. Kromě vlastní implementace parseru tedy experimentujeme se škálou metod, které se snaží vylepšit naivní výsledek (baseline), získaný prostým natrénováním modelu na jednojazyčných korpusech. Tyto metody zahrnují modifikaci korpusů a modifikaci neuronových sítí uvnitř parseru. Účinnost parseru vyhodnocujeme na dvou jazykových párech: hindština/angličtina a komijština/ruština. Pro většinu evaluačních kritérií se nám na těchto testo- vacích datech podařilo dosáhnout nejlepšího známého výsledku. Významně jsme překonali námi stanovený naivní výsledek, jakož i většinu publikovaných výsledků pro podobné úlohy v odborné literatuře. Druhá část práce se věnuje dosud málo prozkoumané úloze predikce pozic v jednojazyčné výpovědi, kde by mohlo dojít k přepnutí kódu. Navrhujeme několik architektur, které takové body označují, doufajíce, že se stanou výchozím bodem pro budoucí výzkum. 1
(English) Vinit Ravishankar July 2018 The aim of this thesis is twofold; first, we attempt to dependency parse existing code-switched corpora, solely by training on monolingual dependency treebanks. In an attempt to do so, we design a dependency parser and ex- periment with a variety of methods to improve upon the baseline established by raw training on monolingual treebanks: these methods range from treebank modification to network modification. On this task, we obtain state-of-the- art results for most evaluation criteria on the task for our evaluation language pairs: Hindi/English and Komi/Russian. We beat our own baselines by a sig- nificant margin, whilst simultaneously beating most scores on similar tasks in the literature. The second part of the thesis involves introducing the relatively understudied task of predicting code-switching points in a monolingual utter- ance; we provide several architectures that attempt to do so, and provide one of them as our baseline, in the hopes that it should continue as a state-of-the-art in future tasks. 1
