Rozpoznávání koreference pro Universal Dependencies
Coreference resolution for Universal Dependencies
bachelor thesis (DEFENDED)
![Document thumbnail](/bitstream/handle/20.500.11956/100911/thumbnail.png?sequence=8&isAllowed=y)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/100911Identifiers
Study Information System: 192305
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Rosa, Rudolf
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Institute of Formal and Applied Linguistics
Date of defense
22. 6. 2018
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
rozpoznávání koreference, koreference, anafora, Universal Dependencies, UDKeywords (English)
coreference resolution, coreference, anaphora, Universal Dependencies, UDNázev práce: Rozpoznávání koreference pro Universal Dependencies Autor: Ján Faryad Ústav: Ústav formální a aplikované lingvistiky Vedoucí bakalářské práce: Mgr. Michal Novák Abstrakt: Koreference je důležitým prostředkem pro udržení soudržnosti textu. V univerzálním popisu morfologie a závislostní syntaxe Universal Dependencies (UD) však dosud chyběla možnost jejího vyznačení. Práce představuje způsob, jak koreferenci v projektu UD značit. Součástí práce je i převod dat s anotací koreference z korpusů PDT 3.0 a OntoNotes 5.0 za pomoci nástroje UDPipe pro automatickou analýzu textu ve stylu UD. Práce se dále zabývá implementací systému pro automatické rozpoznávání koreference zájmen pomocí strojového učení. Nakonec je jednoduchým způsobem vyhodnocena úspěšnost systému. Při návrhu programu je kladen důraz na jazykovou nezávislost a kompatibilitu s rozhraním Udapi používaným pro práci s UD. Klíčová slova: rozpoznávání koreference, koreference, anafora, Universal Dependencies, UD
Title: Coreference resolution for Universal Dependencies Author: Ján Faryad Department: Institute of Formal and Applied Linguistics Supervisor: Mgr. Michal Novák Abstract: Coreference is an important tool for maintaining of the text coherence. Up to now, there has been no possibility to mark it in Universal Dependencies (UD), which is a project for universal description of morphology and dependency syntax. This work presents a way how to mark coreference in the UD project. It also includes a conversion of data with coreference annotation from the corpora PDT 3.0 and OntoNotes 5.0 with using a tool UDPipe for an automatic analysis of text in the UD style. This work is also aimed to implement a system for automatic resolution of pronoun coreference using machine learning. Finally, the quality of the system is evaluated by simple way. The design of the program emphasizes the language independence and compatibility with the Udapi interface, which is used for processing of the UD data. Keywords: coreference resolution, coreference, anaphora, Universal Dependencies, UD