Text classification with limited training data
Textová klasifikace s limitovanými trénovacími daty
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/127392Identifiers
Study Information System: 223641
Collections
- Kvalifikační práce [9663]
Author
Advisor
Referee
Vidová Hladká, Barbora
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
22. 6. 2021
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
NLP|klasifikace textu|weakly supervised learningKeywords (English)
NLP|text classification|weakly supervised learningCı́lem této diplomové práce je minimalizovat manuálnı́činnost nutnou k vytvářenı́ trénovacı́ch dat pro klasifikaci textu. Různé oblasti výzkumu, včetně slabého dohledu, interaktivnı́ho učenı́ a transfer learningu, zkoumajı́, jak toto úsilı́ mini- malizovat. Propojenı́m vı́ce takových myšlenek z dostupné literatury jsme dospěli k návrhu interaktivnı́ho klasifikačnı́ho nástroje na bázi klı́čových slov. Nástroj se opı́rá o metodu klasifikace pomocı́ klı́čových slov namı́sto zdlouhavého an- otovánı́trénovacı́ch textů. Metoda klasifikace pomocı́klı́čových slov hledá klı́čová slova, jejichž výskyt v textu pomáhá určit klasifikačnı́ třı́du. Hledánı́ těchto klı́čových slov je pro člověka náročný proces. Proto předkládáme nový interak- tivnı́klı́čovoslovnı́identifikátor, který má za cı́l tento proces značně ulehčit. Mimo jiné je v něm použit model podobnosti slov pro samovolné doporučovánı́ nových klı́čových slov uživateli. Vytvořili jsme prototyp navrženého interaktivnı́ho identi- fikátoru a použili jsme ho k provedenı́ uživatelské studie na problému vı́cetřı́dové klasifikace recenzı́ restauracı́, abychom potvrdili schůdnost tohoto přı́stupu.
The aim of this thesis is to minimize manual work needed to create training data for text classification tasks. Various research areas including weak supervision, interactive learning and transfer learning explore how to minimize training data creation effort. We combine ideas from available literature in order to design a comprehensive text classification framework that employs keyword-based labeling instead of traditional text annotation. Keyword-based labeling aims to label texts based on keywords contained in the texts that are highly correlated with individual classification labels. As noted repeatedly in previous work, coming up with many new keywords is challenging for humans. To accommodate for this issue, we propose an interactive keyword labeler featuring the use of word similarity for guiding a user in keyword labeling. To verify the effectiveness of our novel approach, we implement a minimum viable prototype of the designed framework and use it to perform a user study on a restaurant review multi-label classification problem.