Detekcia intenzity v postojovej analýze češtiny

Dargaj, Jakub

Detection of Intensity in Sentiment Analysis of Czech
Detekce intenzity v postojové analýze češtiny

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (481.5Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/86211

Identifikátory

SIS: 188691

Katalog UK: 990021442800106986

Oponent práce

Mareček, David

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Obecná informatika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

20. 6. 2017

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Slovenština

Známka

Výborně

Klíčová slova (česky)

postojová analýza, strojové učení, počítačová lingvistika

Klíčová slova (anglicky)

sentiment analysis, machine learning, computational linguistics

Postojová analýza sa zaoberá automatickou extrakciou subjektívnych informácií z textu. Cieľom práce je predpovedať intenzitu postoja v českých textoch. Na riešenie tejto úlohy sme pripravili dataset filmových hodnotení užívateľov Česko-Slovenskej filmovej databázy. Porovnávame niekoľko metód strojového učenia, pričom sa zameriavame na extrakciu číselných atribútov z textových dát. S využitím konvolučných neurónových sietí a korpusovo závislého trénovania vektorových reprezentácií slov sa nám podarilo prekonať základné modely a dosiahnuť presnosť podobnú najnovším výsledkom v tejto oblasti. V práci taktiež analyzujeme model logistickej regresie na porovnanie použitých jazykových prostriedkov medzi recenziami s rôznymi stupňami hodnotenia.

Abstrakt (anglicky)

Sentiment analysis is concerned with automatic extraction of subjective information from text. The goal of this thesis is to predict the intensity of attitude in Czech texts. In order to solve this task, we prepared a dataset of movie reviews by users of Czech-Slovak Film Database. We compare several machine learning methods, focusing on feature extraction from text data. Using convolutional neural networks and corpus-dependent training of word embeddings, we surpassed basic models and achieved accuracy similar to the most recent results in this field. We also analyze the logistic regression model in order to compare the vocabulary used in reviews with different ratings.

Citace dokumentu

Metadata

Zobrazit celý záznam