Automatická detekcia fake-news v slovenských textoch
Automatic detection of fake-news on Slovak texts
Automatická detekce fake-news na slovenských textech
diploma thesis (DEFENDED)
![Document thumbnail](/bitstream/handle/20.500.11956/184051/thumbnail.png?sequence=8&isAllowed=y)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/184051Identifiers
Study Information System: 260320
Collections
- Kvalifikační práce [10862]
Author
Advisor
Referee
Novák, Michal
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Artificial Intelligence
Department
Institute of Formal and Applied Linguistics
Date of defense
5. 9. 2023
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Slovak
Grade
Good
Keywords (Czech)
fake-news|hoaxKeywords (English)
fake-news|hoaxŠírenie fake-news je dlhodobým problémom, ale v posledných rokoch sa stáva ešte výraznejším. Preto sme v tejto práci analyzovali problém ich automatickej detekcie ako úlohu klasifikácie textu. Práca sa od iných, jej podobných štúdií, odlišuje primárne v tom, že sa zameriava na slovenčinu, kde doposiaľ nebola vykonaná takáto rozsiahla sada experi- mentov. Počas testov sme vytvorili vybalansovaný dataset. Vykonali sme taktiež viac ako 80 experimentov s cieľom nájsť optimálny klasifikátor pre riešenie tohto problému. Ako prvý sme použili predtrénované jazykové modely typu Transformer (BERT, mBERT, Ro- BERTA, XLM-RoBERTa a SlovakBERT) a pomocou štandardných metrík sme porovnali ich výkonnosť s inými metódami strojového učenia. Pre fine-tuning sme použili aj ang- lické datasety LIAR a COVID19 FN, na ktorých sme otestovali vplyv témy fake-news a prenos vlastnosti medzi jazykmi. Najlepšie výsledky dosiahol SlovakBERT v kombiná- cii s tréningom na výlučne slovenskom datasete (acc = 0, 9610). 1
Fake news is a problem in recent years. This study focuses on detecting fake news written in the Slovak language using text classification methods. It is unique because it is the first to conduct such a comprehensive set of experiments on Slovak. During the study, a balanced dataset was created, and over 80 experiments were conducted to find the optimal classifier for the problem. Pre-trained transformer-based language models, including BERT, mBERT, RoBERTA, XLM-RoBERTa, and SlovakBERT, were used in the initial step of the study, and their performance was compared against other machine learning methods using standard metrics. The models were fine-tuned with LIAR and COVID19 FN, English-language datasets, to test the impact of fake news topics and language transfer properties. SlovakBERT combined with training exclusively on Slovak datasets achieved the best results with an (acc = 0.9610). This study can contribute to the development of tools to automatically detect fake news in Slovak, aiding in the fight against the spread of false information. 1