Analysis of stock market sentiment with social media
Analýza sentimentu akciového trhu pomocí sociálních médií
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/99637Identifiers
Study Information System: 180350
CU Caralogue: 990021926710106986
Collections
- Kvalifikační práce [18446]
Author
Advisor
Referee
Vacek, Pavel
Faculty / Institute
Faculty of Social Sciences
Discipline
Economics and Finance
Department
Institute of Economic Studies
Date of defense
20. 6. 2018
Publisher
Univerzita Karlova, Fakulta sociálních vědLanguage
English
Grade
Very good
Keywords (Czech)
sentiment Twitteru, vnoření slov, volatilita, reprezentace textuKeywords (English)
Twitter sentiment, Word embeddings, volatilityPráce zkoumá možnost využití sentimentu ve zprávách z Twitteru. K tomu navrhujeme nový přístup založený na přímém odhadu volatility na akciových trzích pomoci příznaků získaných vhodnou reprezentací textu. Porovnáváme standardní metody reprezentace textu a také nový přístup založený na agregaci vektorů slov vytvořených technikou vnoření slov. Ukazuje se, že přímé modelování proměnných na akciovém trhu je možné za pomocí většiny navrhovaných metod vektorizace. Silné výsledky metody založené na vnoření slov ukazují, že tato metoda je výbornou reprezentací sentimentu, protože nezávisí na množství zpráv, ale využívá sémantickou informaci v tweetech. Kromě toho jsme ukázali, že agregace vektorů z vnořených slov je vhodný postup pro reprezentaci velkých dokumentů.
In the thesis, we explored prospects of extracting sentiment contained in Twitter messages. We proposed novel approach consisting of directly predicting the volatility on stock market by features obtained from the text documents using suitable document representation. We compared the performance of standard document vectorisation methods as well as a novel approach based on aggregating word vectors created by word embeddings. We showed that direct modelling of a market variable is possible with most of the proposed vectorisation techniques. In particular, the strong predictive power of aggregated word embeddings suggests that they are excellent sentiment representation, because they are independent of message volume and they capture well the semantical information in the tweets. Besides, our findings suggest that aggregating word embeddings vectorisation is viable approach even for large documents.