Stock Market Prediction: A Multiclass Classification on Emotions and Sentiment Analysis for Tweets and News Headlines
Prognóza vývoje akciových trhů: Vícetřídní klasifikace emocí a analýza sentimentu na základě Tweetů a titulků zpráv
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/121250Identifiers
Study Information System: 202583
Collections
- Kvalifikační práce [18180]
Author
Advisor
Referee
Vácha, Lukáš
Faculty / Institute
Faculty of Social Sciences
Discipline
Economics and Finance
Department
Institute of Economic Studies
Date of defense
16. 9. 2020
Publisher
Univerzita Karlova, Fakulta sociálních vědLanguage
English
Grade
Excellent
i Abstrakt Tato práce zkoumá využití sentimentu na základě titulků zpráv a tweetů. Hlavním zdrojem dat jsou tweety a novinové titulky z dobře známých finančních novin, speciálně cílené na top 5 "Big Tech" firem. Abychom prozkoumali užitečnost sentimentu a emocí dle Ekmana v odhadu budoucích cen akcií, vytvořili jsme vícetřídní klasifikátory emocí a sentimentu za použití přístupu strojového učení. Zkoumané zdroje dat byly manuálně ohodnoceny pro poz- itivní, negativní a neutrální sentiment a také k nim byly přiřazeny primární emoce podle Ekmana, jako jsou hněv, radost, překvapení a smutek. Nepotvrdila se nám žádná významná korelace mezi denním pohybem akcií a rozložením sentimentu. Bylo však zjištěno, že tweety jsou méně neutrální než novinové titulky. Nakonec jsme zavedli jednoduchou investiční strategii extrakcí skóre polarity za použití VADER a dalších metrik jako počet sledujících a sdílení. Dva klasifikátory, SVM a ANN, se vyznačovaly silnou predikcí u akcií Googlu a Amazonu, ale slabou predikcí u ostatních firem. Výsledky práce naznačují, že polarita sentimentu může lépe předpovídat budoucí výkyvy cen akcií než vícetřídní klasifikace emocí. Klasifikace JEL C53, G41, G17, C61 Klíčová slova Titulky zpráv, Tweety, Analýza Sentimentu, Emoce Název práce Prognóza Vývoje Akciových Trhů: Vícetřídní Klasifikace...
i Abstract In this thesis, we look beyond extracting binary sentiment in regards to News Headlines and Tweets. As a data source, we target tweets and headlines from well-known financial newspapers, explicitly addressing the top 5 Big Tech com- panies. To examine the effectiveness of sentiment and Ekman's emotions in predicting future stock price movements, we develop multiclass emotion and sentiment classifiers utilizing a supervised learning approach. Moreover, we manually annotate our corpora for positive, negative, and neutral sentiment as well as one of Ekman's emotions: anger, joy, surprise, sadness. We did not confirm any robust correlation between daily stock price movements and the distribution of sentiment and emotions. However, we did observe that tweets are less neutral than news headlines. Finally, we implement a simple invest- ing strategy by extracting sentiment polarity scores using VADER and other metrics such as followers and shares. Two classifiers, SVM and ANN, delivered robust predictions for Google and Amazon compared to weak predictions for the rest of the companies. Nevertheless, the results suggest that sentiment polarity can effectively predict future stock price movements compared to finer-grained emotion classification. JEL Classification C53, G41, G17, C61 Keywords News...