Methods for Creating Subjectivity Lexicon for Indonesian
Metody vytváření subjektivního slovníku pro indonézštinu
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/54782Identifiers
Study Information System: 129746
Collections
- Kvalifikační práce [11242]
Author
Advisor
Consultant
Lesch, Kateřina
Referee
Kuboň, Vladislav
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
2. 9. 2013
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Very good
Cílem naší práce byla tvorba slovníků subjektivity pro indonéštinu překladem již existujících anglických slovníků a jejich následnou kombinací průnikem a sjed- nocením. Porovnali jsme efektivnost výsledných slovníků pomocí jednoduché prediktivní metody, která měří a porovnává počet výskytů kladných a záporných výrazů ve větě. Použili jsme také dvě různé hodnotící funkce založené jak na četnosti tak na relativní četnosti výrazů v neanotovaných datech. Úpravou predik- tivní metody využívající strojového učení jsme posléze lépe začlenili údaje, které nemohly být zachyceny jednoduchou predikcí. Dále jsme ukázali, že slovníky byly v predikci na testovacích větách schopny dosáhnout vysokého pokrytí ale nízké přesnosti. Ohodnocování výrazů dokáže zlepšit pokrytí či přesnost, ovšem však vždy i se srovnatelným poklesem v druhé metrice. Predikce na bázi stro- jového učení byla schopna minimalizovat citlivost výkonu na velikosti slovníku, bude však zapotřebí dalších experimentů, aby se nalezla nejlepší volba prediktivní metody. 1
In this work, we created subjectivity lexicons of positive and negative expres- sions for Indonesian language by automatically translating English lexicons, and by intersecting and unioning the translation results. We compared the perfor- mances of the resulting lexicons using a simple prediction method that compares the number of occurrences of positive and negative expressions in a sentence. We also experimented with weighting the expressions by their frequency and relative frequency in unannotated data. A modification in prediction method using ma- chine learning was later used to better incorporate the information that cannot be captured by the simple prediction. We showed that the lexicons were able to reach high recall but low precision when predicting whether a sentence is eval- uative (positive or negative) or not (neutral). Scoring the expressions improve the recall or precision but with comparable decrease in the other measure. The machine learning prediction was able to minimize the sensitivity of the perfor- mances to the size of the lexicon, but further experiments are required to explore the best choice for the prediction method. 1