Návrh souboru pravidel pro analýzu anafor v českém jazyce
Rules for analyzing anaphora in Czech
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/7103Identifikátory
SIS: 41083
Kolekce
- Kvalifikační práce [11242]
Autor
Vedoucí práce
Oponent práce
Hajičová, Eva
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Počítačová a formální lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
11. 9. 2006
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
S rostoucí důležitostí počítačového zpracování přirozeného jazyka narůstá i množství výzkumů na téma automatické analýzy anafory. Příspěvkem k výzkumu této problematiky je rovněž naše diplomová práce, jejímž cílem je vytvořit soubor pravidel pro analýzu anafory v českém jazyce. Vytvořený soubor pravidel obsahuje jak ručně psaná pravidla, tak i pravidla vznikající pomocí systému strojového učení C4.5. K trénování a testování pravidel byla použita anotovaná data z Pražského závislostního korpusu, ve kterém je zachycena zájmenná anafora, kontrola, reciprocita a závislostní vztah doplňků. Právě těmto druhům anafory je věnována naše práce. Vyhodnocení pravidel je provedeno standardními metodami pro hodnocení úplnosti a přesnosti.
With the increasing importance of natural language processing there is growing number of research with the theme automatic anaphora resolution.. The contribution to the research on this problem is also this thesis. The aim of the work is to propose a set of rules for anaphora resolution in Czech. The created set of rules consists of handwritten rules as well as rules developped with the aid of machine learning system C4.5. For the rules training and testing were used anoted data from the Prague Dependency Treebank, in which following types of anaphora are captured: pronominal anaphora, control, reciprocity and dependency relation of adjuncts. Our work is focused on these types of anaphora. The evaluation of the rules is done with standard methods for interpretation of recall and precision.