Semantic information from FrameNet and the possibility of its transfer to Czech data
Sémantická informace ze sítě FrameNet a možnosti jejího využití pro česká data
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/83109Identifiers
Study Information System: 176288
Collections
- Kvalifikační práce [10066]
Author
Advisor
Referee
Holub, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
8. 9. 2016
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Good
Keywords (Czech)
FrameNet, sémantika rámců, strojové učení, word sense disambiguation, češtinaKeywords (English)
FrameNet, frame semantics, machine learning, word sense disambiguation, CzechTématem práce je převod anotace z databáze FrameNet do češtiny a možnost využití takto vzniklých dat pro automatické předpovídání rámců. První část tohoto úkolu, převod anotace z angličtiny do češtiny, byla provedena dvěma způ- soby. Nejprve byl k tomuto účelu použit paralelní korpus anglických vět a jejich českých překladů (PCEDT), následně byl podobný, ale mnohonásobně větší ko- rpus vytvořen strojovým překladem příkladových vět z databáze FrameNet do češtiny. Výsledná data byla částečně ručně evaluována a došlo rovněž k automat- ickému vyřazení snadno rozpoznatelných chyb. Získaná data byla poté použita v experimentech zaměřených na automatické přiřazování rámců pomocí metod strojového učení (rozhodovacích stromů a support vector machines). Vzhledem k tomu, že obě metody dosáhly v předpovídání rámců poměrně nízké úspěšnosti, byla provedena další ruční korekce vstupních dat, čímž se podařilo kvalitu přiřa- zování rámců zvýšit. Srovnání s podobnými experimenty popsanými v odborné literatuře však ukázalo, že výsledky automatického předpovídání významů mohou dosahovat ještě vyšší úspěšnosti. Práce se proto zmiňuje také o odlišných přís- tupech k výběru rysů a možnostech dalšího zlepšování výsledků automatického přiřazování rámců za použití strojového učení. 1
The thesis focuses on transferring FrameNet annotation from English to Czech and the possibilities of using the resulting data for automatic frame prediction in Czech. The first part, annotation transfer, has been performed in two ways. First, a parallel corpus of English sentences and their human created Czech translations (PCEDT) was used. Second, a much larger parallel corpus was created using ma- chine translation of FrameNet example sentences. This corpus was then used to transfer the annotation as well. The resulting data were partially evaluated and some of the automatically detectable errors were filtered out. Subsequently, the data were used as an input for two machine learning methods, decision trees and support vector machines. Since neither of the machine learning experiments brought impressive results, further manual correction of the data annotation was performed, which helped increase the accuracy of the prediction. However, as the accuracy reported in related papers is notably higher, the thesis also discusses dif- ferent approaches to feature selection and the possibility of further improvement of the prediction results using these methods. 1