Deep contextualized word embeddings from character language models for neural sequence labeling
Použití hlubokých kontextualizovaných slovních reprezentací založených na znacích pro neuronové sekvenční značkování
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/105144Identifiers
Study Information System: 210186
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Kocmi, Tom
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
4. 2. 2019
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
umělé nuronové sítě, sekvenční značkování, znakové jazykové modelyKeywords (English)
artificial neural networks, sequence labeling, character language models, part-of-speech tagging, named entity recognition, multiword expression, word embedding, deep learning, PortugueseRodina úkolů pro zpracování přirozeného jazyka (NLP), jako je označování po částech řeči (PoS), identifikace pojmenované entity (NER) a identifikace více slov (MWE), zahrnují přiřazení štítků sekvencím slov v textu označování). Většina moderních přístupů strojového učení k sekvenčnímu označování využívá vkládání slov, naučené reprezentace textu, ve kterých mají slova s podobnými významy podobné reprezentace. Docela nedávno, kontextualizované slovní embeddings získaly hodně pozornosti, protože na rozdíl od předem vyškolených kontextově necitlivých embeddings, jako je word2vec, jsou schopni zachytit význam slova v kontextu. V této diplomové práci hodnotím výkonnost různých nastavení vkládání (kontextu citlivé, kontextově necitlivé slovo, stejně jako slovo specifické pro danou práci, charakter, lemma a PoS) na třech výše uvedených úlohách označování sekvence pomocí hlubokého modelu učení ( BiLSTM) a portugalských datových sad.
A family of Natural Language Processing (NLP) tasks such as part-of- speech (PoS) tagging, Named Entity Recognition (NER), and Multiword Expression (MWE) identification all involve assigning labels to sequences of words in text (sequence labeling). Most modern machine learning approaches to sequence labeling utilize word embeddings, learned representations of text, in which words with similar meanings have similar representations. Quite recently, contextualized word embeddings have garnered much attention because, unlike pretrained context- insensitive embeddings such as word2vec, they are able to capture word meaning in context. In this thesis, I evaluate the performance of different embedding setups (context-sensitive, context-insensitive word, as well as task-specific word, character, lemma, and PoS) on the three abovementioned sequence labeling tasks using a deep learning model (BiLSTM) and Portuguese datasets. v