Extending the Lexical Network DeriNet
Rozšíření lexikální sítě DeriNet
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/81939Identifikátory
SIS: 165563
Kolekce
- Kvalifikační práce [10690]
Autor
Vedoucí práce
Oponent práce
Hlaváčová, Jaroslava
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
7. 9. 2015
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Velmi dobře
Klíčová slova (česky)
DeriNet, derivace, lexikální síť, MorfFlexKlíčová slova (anglicky)
DeriNet, derivation, lexical network, MorfFlexDeriNet je databáze českých lexikálních derivátů - lexikální síť, ve které uzly odpovídají lemmatům vybraným z Českého národního korpusu a hrany derivačním vztahům mezi nimi (například práce → pracovat → vypracovat). Vybírání lemmat z korpusu s sebou nese dva hlavní problémy: chybovost a chybějící lemmata, která by mohla sloužit jako spojnice mezi dosud nespojenými komponentami slovní sítě. Proto je potřeba najít spolehlivější a bohatší zdroj lemmat. Cílem této práce je rozšířit slovní zásobu DeriNetu pomocí lemmat z českého morfologického slovníku MorfFlex CZ a opravit derivační pravidla, která s novými slovy produkují chyby. Chybovost je měřena porovnáváním vztahů v databázi s ručně anotovanými daty vytvořenými v rámci práce. Powered by TCPDF (www.tcpdf.org)
DeriNet is a database of Czech lexical derivates. It is a wordnet in which nodes represent lemmas sampled from the Czech National Corpus and edges represent derivational relations between them (such as work → workable → unworkable). Sourcing the lemmas from a corpus brings two problems: errors and missing lemmas that could link together currently unconnected clusters. Therefore, a more reliable and more complete source of lemmas is needed. The goal of this thesis is to extend the lexicon of DeriNet using lemmas sourced from MorfFlex CZ, a Czech morphological dictionary, and to correct the derivational rules that produce errors with the new lexicon. Error rate is measured by comparing the relations in the database with manually annotated data created as part of the thesis. Powered by TCPDF (www.tcpdf.org)