Popularita osob automaticky
Popularity Meter
bakalářská práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/50596Identifikátory
SIS: 62908
Kolekce
- Kvalifikační práce [11325]
Autor
Vedoucí práce
Oponent práce
Popel, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
7. 9. 2011
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
subjektivita, anotace polarity, strojové učení, klasifikace textůKlíčová slova (anglicky)
subjectivity, annotating polarity, machine learning, text classificationMožnost automaticky sledovat popularitu osob v~novinách by jistě uvítaly nejen tyto osoby samotné. Počítačové zpracovávání subjektivity je sice rychle se rozvíjející podobor komputační lingvistiky, v~češtině ovšem vůbec pro analýzu subjektivity a polarity v publicistice neexistují data. Začali jsme tedy s~tvorbou ručně anotovaného korpusu polarity z~českých publicistických textů, které se ovšem pro takové zpracování ukázaly jako krajně nevhodné. Dále jsme navrhli klasifikátor založený na statistických metodách, který by měl na základě tohoto korpusu popularitu sledovat, a otestovali jsme ho na korpusu recenzí bílého zboží a orientačně na zárodku našeho korpusu vět z~novinových článků. Jako model jsme použili automaticky extrahovaný unigramový slovník, tři příbuzné metody pro zjišťování polárních lemmat a množství filtrů pro selekci relevantních lemmat. Na recenzích bílého zboží jsme dosáhli výsledků srovnatelných se světovým výzkumem už se základním modelem, naopak u českých publicistických textů vidíme kvůli jejich charakteru možný příslib až u více lingvisticky orientovaných metod.
Having the possibility of automatically tracking a person's popularity in the newspapers is an idea appealing not just to those in the media spotlight. While sentiment (subjectivity) analysis is a rapidly growing subfield of computational linguistics, no data from the news domain are yet available for Czech. We have therefore started building a manually annotated polarity corpus of sentences from Czech news texts; however, these texts have proven themselves rather unwieldy for such processing. We have also designed a classifier which should be able to track popularity based on this corpus; the classifier has been tested on a corpus of product reviews of domestic appliances and some introductory testing has been done on the nascent news corpus. As a model, we simply extract a unigram polarity lexicon from the data. We then use three related methods for identifying lemma polarity and a number of simple filters for feature selection. On the domestic appliance data, our simplest model has achieved results comparable to the state of the art, however, the properties of Czech news texts and preliminary results hint a more linguistically oriented approach might be preferrable.