Semi-supervised deep learning in sequence labeling
Semisupervizované hluboké učení v označování sekvencí
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/110219Identifiers
Study Information System: 212278
Collections
- Kvalifikační práce [11242]
Author
Advisor
Consultant
Holeňa, Martin
Referee
Flusser, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Artificial Intelligence
Department
Department of Theoretical Computer Science and Mathematical Logic
Date of defense
16. 9. 2019
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
hluboké učení, semi-supervizované učení, modelovaní sekvencí, označování sekvencí, strojové učení, neuronové sítěKeywords (English)
deep learning, semi-supervised learning, sequence modeling, sequence labeling, machine learning, neural networksOznačování sekvencí ve strojovém učení je typ problému, který zahrnuje při- řazování označení jednotlivým členům sekvence. Pro tento typ problému dosáhlo hluboké učení dobrého výkonu. Jedna z nevýhod tohoto přístupu je jeho zá- vislost na velkém množství označených dat. Semi-supervizované učení zmírňuje tento problém používáním levnějších neoznačených dat spolu s daty označenými. V současnosti je použití semi-supervizovaného hlubokého učení v označování sekvencí limitované. Z tohoto důvodu se tato práce zaměřuje na aplikaci semi- supervizovaného hlubokého učení v označování sekvencí. Práce prozkoumává exis- tující přístupy semi-supervizovaného hlubokého učení a navrhuje vlastní přístupy. Navržené přístupy jsou experimentálně vyhodnocené na úlohách rozpoznávání po- jmenovaných entit a tvaroslovného značkování.
Sequence labeling is a type of machine learning problem that involves as- signing a label to each sequence member. Deep learning has shown good per- formance for this problem. However, one disadvantage of this approach is its requirement of having a large amount of labeled data. Semi-supervised learning mitigates this problem by using cheaper unlabeled data together with labeled data. Currently, usage of semi-supervised deep learning for sequence labeling is limited. Therefore, the focus of this thesis is on the application of semi-super- vised deep learning in sequence labeling. Existing semi-supervised deep learning approaches are examined, and approaches for sequence labeling are proposed. The proposed approaches were implemented and experimentally evaluated on named-entity recognition and part-of-speech tagging tasks.