Text classification with limited training data
Textová klasifikace s limitovanými trénovacími daty
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/127392Identifikátory
SIS: 223641
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Vidová Hladká, Barbora
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
22. 6. 2021
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
NLP|klasifikace textu|weakly supervised learningKlíčová slova (anglicky)
NLP|text classification|weakly supervised learningCı́lem této diplomové práce je minimalizovat manuálnı́činnost nutnou k vytvářenı́ trénovacı́ch dat pro klasifikaci textu. Různé oblasti výzkumu, včetně slabého dohledu, interaktivnı́ho učenı́ a transfer learningu, zkoumajı́, jak toto úsilı́ mini- malizovat. Propojenı́m vı́ce takových myšlenek z dostupné literatury jsme dospěli k návrhu interaktivnı́ho klasifikačnı́ho nástroje na bázi klı́čových slov. Nástroj se opı́rá o metodu klasifikace pomocı́ klı́čových slov namı́sto zdlouhavého an- otovánı́trénovacı́ch textů. Metoda klasifikace pomocı́klı́čových slov hledá klı́čová slova, jejichž výskyt v textu pomáhá určit klasifikačnı́ třı́du. Hledánı́ těchto klı́čových slov je pro člověka náročný proces. Proto předkládáme nový interak- tivnı́klı́čovoslovnı́identifikátor, který má za cı́l tento proces značně ulehčit. Mimo jiné je v něm použit model podobnosti slov pro samovolné doporučovánı́ nových klı́čových slov uživateli. Vytvořili jsme prototyp navrženého interaktivnı́ho identi- fikátoru a použili jsme ho k provedenı́ uživatelské studie na problému vı́cetřı́dové klasifikace recenzı́ restauracı́, abychom potvrdili schůdnost tohoto přı́stupu.
The aim of this thesis is to minimize manual work needed to create training data for text classification tasks. Various research areas including weak supervision, interactive learning and transfer learning explore how to minimize training data creation effort. We combine ideas from available literature in order to design a comprehensive text classification framework that employs keyword-based labeling instead of traditional text annotation. Keyword-based labeling aims to label texts based on keywords contained in the texts that are highly correlated with individual classification labels. As noted repeatedly in previous work, coming up with many new keywords is challenging for humans. To accommodate for this issue, we propose an interactive keyword labeler featuring the use of word similarity for guiding a user in keyword labeling. To verify the effectiveness of our novel approach, we implement a minimum viable prototype of the designed framework and use it to perform a user study on a restaurant review multi-label classification problem.
