Analysis of stock market sentiment with social media
Analýza sentimentu akciového trhu pomocí sociálních médií
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/99637Identifikátory
SIS: 180350
Kolekce
- Kvalifikační práce [17877]
Autor
Vedoucí práce
Oponent práce
Vacek, Pavel
Fakulta / součást
Fakulta sociálních věd
Obor
Ekonomie a finance
Katedra / ústav / klinika
Institut ekonomických studií
Datum obhajoby
20. 6. 2018
Nakladatel
Univerzita Karlova, Fakulta sociálních vědJazyk
Angličtina
Známka
Velmi dobře
Klíčová slova (česky)
sentiment Twitteru, vnoření slov, volatilita, reprezentace textuKlíčová slova (anglicky)
Twitter sentiment, Word embeddings, volatilityPráce zkoumá možnost využití sentimentu ve zprávách z Twitteru. K tomu navrhujeme nový přístup založený na přímém odhadu volatility na akciových trzích pomoci příznaků získaných vhodnou reprezentací textu. Porovnáváme standardní metody reprezentace textu a také nový přístup založený na agregaci vektorů slov vytvořených technikou vnoření slov. Ukazuje se, že přímé modelování proměnných na akciovém trhu je možné za pomocí většiny navrhovaných metod vektorizace. Silné výsledky metody založené na vnoření slov ukazují, že tato metoda je výbornou reprezentací sentimentu, protože nezávisí na množství zpráv, ale využívá sémantickou informaci v tweetech. Kromě toho jsme ukázali, že agregace vektorů z vnořených slov je vhodný postup pro reprezentaci velkých dokumentů.
In the thesis, we explored prospects of extracting sentiment contained in Twitter messages. We proposed novel approach consisting of directly predicting the volatility on stock market by features obtained from the text documents using suitable document representation. We compared the performance of standard document vectorisation methods as well as a novel approach based on aggregating word vectors created by word embeddings. We showed that direct modelling of a market variable is possible with most of the proposed vectorisation techniques. In particular, the strong predictive power of aggregated word embeddings suggests that they are excellent sentiment representation, because they are independent of message volume and they capture well the semantical information in the tweets. Besides, our findings suggest that aggregating word embeddings vectorisation is viable approach even for large documents.