Automatické vytváření sémantických sítí
Automatic construction of semantic networks
diploma thesis (DEFENDED)
![Document thumbnail](/bitstream/handle/20.500.11956/49619/thumbnail.png?sequence=8&isAllowed=y)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/49619Identifiers
Study Information System: 79225
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Holub, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
30. 1. 2012
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Very good
Keywords (Czech)
sémantické sítě, automatické, vytváření, strojové učeníKeywords (English)
semantic networks, automatic, construction, machine learningPředložená práce si dává za cíl prozkoumat možnosti automatické konstrukce a rozšiřování sémantických sítí za použití metod strojového učení. Důraz je kladen na postup získávání rysů pro sadu dat. Práce prezentuje metodu získávání sémantických relací, založenou na distribuční hypotéze a trénovanou na datech z Czech WordNetu. Dále jsou prezentovány zatím první výsledky pro český jazyk v této oblasti. Součástí práce je sada programů pro zpracování a vyhodnocení dat a přehled a diskuze jejich výsledků na konkrétních datech. Výsledným nástrojem je možné zpracovávat data řádově v rozsahu stovek miliónů slov. Práce byla vypracována na českých morfologicky a syntakticky anotovaných datech, nicméně použité postupy nejsou na jazyce závislé.
Presented work explores the possibilities of automatic construction and expansion of semantic networks with use of machine learning methods. The main focus is put on the feature retrieving procedure for the data set. The work presents a method of semantic relation retrieval, based on distributional hypothesis and trained on the data from Czech WordNet. We also show the first results for Czech language in this area of research. Part of the thesis is also a set of software for processing and evaluating of input data and a overview and discussion about its results on real-world data. The resulting tools can process data of amount in orders of hundreds of millions of words. The research part of the thesis used Czech morphologically and syntactically annotated data, but the methods are not language dependent.