Methods for Creating Subjectivity Lexicon for Indonesian
Metody vytváření subjektivního slovníku pro indonézštinu
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/54782Identifikátory
SIS: 129746
Kolekce
- Kvalifikační práce [10691]
Autor
Vedoucí práce
Konzultant práce
Lesch, Kateřina
Oponent práce
Kuboň, Vladislav
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
2. 9. 2013
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Velmi dobře
Cílem naší práce byla tvorba slovníků subjektivity pro indonéštinu překladem již existujících anglických slovníků a jejich následnou kombinací průnikem a sjed- nocením. Porovnali jsme efektivnost výsledných slovníků pomocí jednoduché prediktivní metody, která měří a porovnává počet výskytů kladných a záporných výrazů ve větě. Použili jsme také dvě různé hodnotící funkce založené jak na četnosti tak na relativní četnosti výrazů v neanotovaných datech. Úpravou predik- tivní metody využívající strojového učení jsme posléze lépe začlenili údaje, které nemohly být zachyceny jednoduchou predikcí. Dále jsme ukázali, že slovníky byly v predikci na testovacích větách schopny dosáhnout vysokého pokrytí ale nízké přesnosti. Ohodnocování výrazů dokáže zlepšit pokrytí či přesnost, ovšem však vždy i se srovnatelným poklesem v druhé metrice. Predikce na bázi stro- jového učení byla schopna minimalizovat citlivost výkonu na velikosti slovníku, bude však zapotřebí dalších experimentů, aby se nalezla nejlepší volba prediktivní metody. 1
In this work, we created subjectivity lexicons of positive and negative expres- sions for Indonesian language by automatically translating English lexicons, and by intersecting and unioning the translation results. We compared the perfor- mances of the resulting lexicons using a simple prediction method that compares the number of occurrences of positive and negative expressions in a sentence. We also experimented with weighting the expressions by their frequency and relative frequency in unannotated data. A modification in prediction method using ma- chine learning was later used to better incorporate the information that cannot be captured by the simple prediction. We showed that the lexicons were able to reach high recall but low precision when predicting whether a sentence is eval- uative (positive or negative) or not (neutral). Scoring the expressions improve the recall or precision but with comparable decrease in the other measure. The machine learning prediction was able to minimize the sensitivity of the perfor- mances to the size of the lexicon, but further experiments are required to explore the best choice for the prediction method. 1