Extending the Lexical Network DeriNet
Rozšíření lexikální sítě DeriNet
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/81939Identifiers
Study Information System: 165563
CU Caralogue: 990020254780106986
Collections
- Kvalifikační práce [11335]
Author
Advisor
Referee
Hlaváčová, Jaroslava
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Institute of Formal and Applied Linguistics
Date of defense
7. 9. 2015
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Very good
Keywords (Czech)
DeriNet, derivace, lexikální síť, MorfFlexKeywords (English)
DeriNet, derivation, lexical network, MorfFlexDeriNet je databáze českých lexikálních derivátů - lexikální síť, ve které uzly odpovídají lemmatům vybraným z Českého národního korpusu a hrany derivačním vztahům mezi nimi (například práce → pracovat → vypracovat). Vybírání lemmat z korpusu s sebou nese dva hlavní problémy: chybovost a chybějící lemmata, která by mohla sloužit jako spojnice mezi dosud nespojenými komponentami slovní sítě. Proto je potřeba najít spolehlivější a bohatší zdroj lemmat. Cílem této práce je rozšířit slovní zásobu DeriNetu pomocí lemmat z českého morfologického slovníku MorfFlex CZ a opravit derivační pravidla, která s novými slovy produkují chyby. Chybovost je měřena porovnáváním vztahů v databázi s ručně anotovanými daty vytvořenými v rámci práce. Powered by TCPDF (www.tcpdf.org)
DeriNet is a database of Czech lexical derivates. It is a wordnet in which nodes represent lemmas sampled from the Czech National Corpus and edges represent derivational relations between them (such as work → workable → unworkable). Sourcing the lemmas from a corpus brings two problems: errors and missing lemmas that could link together currently unconnected clusters. Therefore, a more reliable and more complete source of lemmas is needed. The goal of this thesis is to extend the lexicon of DeriNet using lemmas sourced from MorfFlex CZ, a Czech morphological dictionary, and to correct the derivational rules that produce errors with the new lexicon. Error rate is measured by comparing the relations in the database with manually annotated data created as part of the thesis. Powered by TCPDF (www.tcpdf.org)