Multilingual Named Entity Recognition in Universal Dependencies
Vícejazyčné rozpoznávání pojmenovaných entit v Universal Dependencies
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/202353Identifikátory
SIS: 269720
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Lopatková, Markéta
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
4. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
Rozpoznávání pojmenovaných entit|Universal Dependencies|DistilBERT|Multilingvální NLPKlíčová slova (anglicky)
Named Entity Recognition|Universal Dependencies|DistilBERT|Multilingual NLPTato práce zkoumá rozpoznávání pojmenovaných entit porovnáním heu- ristických pravidel založených na anotacích z Universal Dependencies, fine- tunovaných modelů DistilBERT a nástroje NameTag3 na 17 datasetech. In- tegrace Wikidat zajišťuje klasifikaci entit pro heuristické metody, ale uka- zuje se jako problematická, kdy klasifikační F1 klesá na 40% detekčního skóre. Výsledky ukazují nejvyšší F1 skóre u NameTag3 (0,865), následovaný DistilBERT-em (0,616) a nejlepší heuristikou (0,532). Klíčové zjištění pro- kazuje, že heuristické metody jsou udržují konzistentní výkon bez ohledu na dostupnost trénovacích dat, zatímco malé neuronové modely selhávají u jazyků s omezeným zastoupením v trénovacích datech. Jednoduché přístupy založené na pravidlech dosahují smysluplných výsledků, dosahují 61% výkonu NameTag3 bez potřeby trénovacích dat.
This thesis investigates multilingual Named Entity Recognition by com- paring heuristic rules based on Universal Dependencies, fine-tuned Distil- BERT models, and NameTag3 across 17 datasets. Wikidata integration pro- vides entity classification for heuristic methods but proves challenging, with classification F1 dropping to 40% of detection performance. Results show NameTag3 achieves highest F1 score (0.865), followed by DistilBERT (0.616) and best heuristic method (0.532). A key finding demonstrates that heuristic methods maintain consistent performance regardless of training data avail- ability, while small neural models fail on languages with limited training representation. Simple rule-based approaches achieve meaningful results, reaching 61% of NameTag3's performance without requiring training data.
