Pojmenované entity a ontologie metodami hlubokého učení
Pojmenované entity a ontologie metodami hlubokého učení
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/124638Identifiers
Study Information System: 208734
Collections
- Kvalifikační práce [10148]
Author
Advisor
Consultant
Straková, Jana
Referee
Žabokrtský, Zdeněk
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Artificial Intelligence
Department
Institute of Formal and Applied Linguistics
Date of defense
4. 2. 2021
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
pojmenované entity|propojení pojmenovaných entit|přirozený jazyk|BERT|hluboké učeníKeywords (English)
named entities|entity linking|natural language|BERT|contextualized embeddings|deep learningV této diplomové práci popisujeme metodu pro propojování pojmenovaných entit a ontologické databáze. S použítím hlubokých neuronových sítí a kontextualizovaných embedingů BERT jsme vytořili model, který společně provádí rozpoznávání a disambiguování pojmenovaných entit. Vstupem do systému je text a výstupem je Wikipedia identifikátor pro každou nalezenou entitu. Kontextualizované embedingy byly získány pomocí předtrénovaného modelu BERT bez jeho dalších úprav (ne fine-tuning). Experimentovali jsme s komponentami našeho modelu a také s různými variantami BERT embedingů. Dále jsme vyzkoušeli různé způsoby použití kontextualizovaných embedingů. Náš model byl vyhodnocen pomocí obvyklých metrik a překonává výsledky dosavadně standardních prací, které nepoužívají předtrénované kontextualizované modely. Naše výsledky jsou srovnatelné s výsledky sočasných nejmodernějších systémů.
In this master thesis we describe a method for linking named entities in a given text to a knowledge base - Named Entity Linking. Using a deep neural architecture together with BERT contextualized word embeddings we created a semi-supervised model that jointly performs Named Entity Recognition and Named Entity Disambiguation. The model outputs a Wikipedia ID for each entity detected in an input text. To compute contextualized word embeddings we used pre-trained BERT without making any changes to it (no fine-tuning). We experimented with components of our model and various versions of BERT embeddings. Moreover, we tested several different ways of using the contextual embeddings. Our model is evaluated using standard metrics and surpasses scores of models that were establishing the state of the art before the expansion of pre-trained contextualized models. The scores of our model are comparable to current state-of-the-art models.