Detekcia intenzity v postojovej analýze češtiny
Detection of Intensity in Sentiment Analysis of Czech
Detekce intenzity v postojové analýze češtiny
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/86211Identifiers
Study Information System: 188691
Collections
- Kvalifikační práce [10148]
Author
Advisor
Referee
Mareček, David
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Institute of Formal and Applied Linguistics
Date of defense
20. 6. 2017
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Slovak
Grade
Excellent
Keywords (Czech)
postojová analýza, strojové učení, počítačová lingvistikaKeywords (English)
sentiment analysis, machine learning, computational linguisticsPostojová analýza sa zaoberá automatickou extrakciou subjektívnych informácií z textu. Cieľom práce je predpovedať intenzitu postoja v českých textoch. Na riešenie tejto úlohy sme pripravili dataset filmových hodnotení užívateľov Česko-Slovenskej filmovej databázy. Porovnávame niekoľko metód strojového učenia, pričom sa zameriavame na extrakciu číselných atribútov z textových dát. S využitím konvolučných neurónových sietí a korpusovo závislého trénovania vektorových reprezentácií slov sa nám podarilo prekonať základné modely a dosiahnuť presnosť podobnú najnovším výsledkom v tejto oblasti. V práci taktiež analyzujeme model logistickej regresie na porovnanie použitých jazykových prostriedkov medzi recenziami s rôznymi stupňami hodnotenia.
Sentiment analysis is concerned with automatic extraction of subjective information from text. The goal of this thesis is to predict the intensity of attitude in Czech texts. In order to solve this task, we prepared a dataset of movie reviews by users of Czech-Slovak Film Database. We compare several machine learning methods, focusing on feature extraction from text data. Using convolutional neural networks and corpus-dependent training of word embeddings, we surpassed basic models and achieved accuracy similar to the most recent results in this field. We also analyze the logistic regression model in order to compare the vocabulary used in reviews with different ratings.