Analysis of stock market sentiment with social media

Čermák, Vojtěch

Analýza sentimentu akciového trhu pomocí sociálních médií

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (153.6Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/99637

Identifikátory

SIS: 180350

Katalog UK: 990021926710106986

Oponent práce

Vacek, Pavel

Fakulta / součást

Fakulta sociálních věd

Obor

Ekonomie a finance

Katedra / ústav / klinika

Institut ekonomických studií

Datum obhajoby

20. 6. 2018

Nakladatel

Univerzita Karlova, Fakulta sociálních věd

Jazyk

Angličtina

Známka

Velmi dobře

Klíčová slova (česky)

sentiment Twitteru, vnoření slov, volatilita, reprezentace textu

Klíčová slova (anglicky)

Twitter sentiment, Word embeddings, volatility

Práce zkoumá možnost využití sentimentu ve zprávách z Twitteru. K tomu navrhujeme nový přístup založený na přímém odhadu volatility na akciových trzích pomoci příznaků získaných vhodnou reprezentací textu. Porovnáváme standardní metody reprezentace textu a také nový přístup založený na agregaci vektorů slov vytvořených technikou vnoření slov. Ukazuje se, že přímé modelování proměnných na akciovém trhu je možné za pomocí většiny navrhovaných metod vektorizace. Silné výsledky metody založené na vnoření slov ukazují, že tato metoda je výbornou reprezentací sentimentu, protože nezávisí na množství zpráv, ale využívá sémantickou informaci v tweetech. Kromě toho jsme ukázali, že agregace vektorů z vnořených slov je vhodný postup pro reprezentaci velkých dokumentů.

Abstrakt (anglicky)

In the thesis, we explored prospects of extracting sentiment contained in Twitter messages. We proposed novel approach consisting of directly predicting the volatility on stock market by features obtained from the text documents using suitable document representation. We compared the performance of standard document vectorisation methods as well as a novel approach based on aggregating word vectors created by word embeddings. We showed that direct modelling of a market variable is possible with most of the proposed vectorisation techniques. In particular, the strong predictive power of aggregated word embeddings suggests that they are excellent sentiment representation, because they are independent of message volume and they capture well the semantical information in the tweets. Besides, our findings suggest that aggregating word embeddings vectorisation is viable approach even for large documents.

Citace dokumentu

Metadata

Zobrazit celý záznam