Semantic information from FrameNet and the possibility of its transfer to Czech data
Sémantická informace ze sítě FrameNet a možnosti jejího využití pro česká data
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/83109Identifikátory
SIS: 176288
Katalog UK: 990021025700106986
Kolekce
- Kvalifikační práce [11987]
Autor
Vedoucí práce
Oponent práce
Holub, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
8. 9. 2016
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Dobře
Klíčová slova (česky)
FrameNet, sémantika rámců, strojové učení, word sense disambiguation, češtinaKlíčová slova (anglicky)
FrameNet, frame semantics, machine learning, word sense disambiguation, CzechTématem práce je převod anotace z databáze FrameNet do češtiny a možnost využití takto vzniklých dat pro automatické předpovídání rámců. První část tohoto úkolu, převod anotace z angličtiny do češtiny, byla provedena dvěma způ- soby. Nejprve byl k tomuto účelu použit paralelní korpus anglických vět a jejich českých překladů (PCEDT), následně byl podobný, ale mnohonásobně větší ko- rpus vytvořen strojovým překladem příkladových vět z databáze FrameNet do češtiny. Výsledná data byla částečně ručně evaluována a došlo rovněž k automat- ickému vyřazení snadno rozpoznatelných chyb. Získaná data byla poté použita v experimentech zaměřených na automatické přiřazování rámců pomocí metod strojového učení (rozhodovacích stromů a support vector machines). Vzhledem k tomu, že obě metody dosáhly v předpovídání rámců poměrně nízké úspěšnosti, byla provedena další ruční korekce vstupních dat, čímž se podařilo kvalitu přiřa- zování rámců zvýšit. Srovnání s podobnými experimenty popsanými v odborné literatuře však ukázalo, že výsledky automatického předpovídání významů mohou dosahovat ještě vyšší úspěšnosti. Práce se proto zmiňuje také o odlišných přís- tupech k výběru rysů a možnostech dalšího zlepšování výsledků automatického přiřazování rámců za použití strojového učení. 1
The thesis focuses on transferring FrameNet annotation from English to Czech and the possibilities of using the resulting data for automatic frame prediction in Czech. The first part, annotation transfer, has been performed in two ways. First, a parallel corpus of English sentences and their human created Czech translations (PCEDT) was used. Second, a much larger parallel corpus was created using ma- chine translation of FrameNet example sentences. This corpus was then used to transfer the annotation as well. The resulting data were partially evaluated and some of the automatically detectable errors were filtered out. Subsequently, the data were used as an input for two machine learning methods, decision trees and support vector machines. Since neither of the machine learning experiments brought impressive results, further manual correction of the data annotation was performed, which helped increase the accuracy of the prediction. However, as the accuracy reported in related papers is notably higher, the thesis also discusses dif- ferent approaches to feature selection and the possibility of further improvement of the prediction results using these methods. 1
