Named Entity Recognition in Historical Texts
Rozpoznávání jmenných entit v historických textech
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/203164Identifiers
Study Information System: 269051
Collections
- Kvalifikační práce [11976]
Author
Advisor
Referee
Straková, Jana
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Language Technologies and Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
10. 9. 2025
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
zpracování přirozeného jazyka|jmenné entity|rozpoznávání jmenných entit|jazykové modely|digitální humanitní vědyKeywords (English)
Nature Language Processing|Named Entites|Named Entity Recognition|Language Models|Digital HumanitiesTato práce se zabývá rozpoznáváním pojmenovaných entit (NER) v historických ví- cejazyčných datech, přičemž hlavní pozornost je věnována výpovědím svědků holokaustu z archivu Visual History Archive (VHA). Studie analyzuje svědectví v češtině, nizo- zemštině, angličtině a němčině a ukazuje, že pouhých 25% anotovaných klíčových slov a 55% osob je v textech explicitně zmíněno. Pojmenované entity extrahované pomocí nejmodernějších NER modelů lze namapovat na hesla z thesauru v 75-90% případů, což naznačuje potenciál pro obohacení ručně vytvářených metadat. Pro texty s tématikou holokaustu byl vyvinut specializovaný NER model založený na jazykovém modelu XLM- RoBERTa-Malach-v4, který při vyhodnocení na VHA datasetu dosáhl celkového F1 skóre 69,87%. Nejvyšší úspěšnosti model dosahuje při rozpoznávání osob, dále také u kategorií tábor a místo, zatímco identifikace organizací pro něj představují největší výzvu. Výsledky této práce přispívají k rozvoji digitálních humanitních věd tím, že poskytují specializo- vané nástroje pro zpracování svědectví s tématikou holokaustu a ukazují možnosti, jak automatizovaně doplnit stávající ručně vytvořené anotace.
This thesis addresses Named Entity Recognition (NER) in historical multilingual texts, with a focus on Holocaust-related testimonies from the Visual History Archive (VHA). The study analyzes testimonies in Czech, Dutch, English, and German and shows that only about 25% of annotated keywords and 55% of persons are explicitly mentioned within the testimonies. Named entities extracted by state-of-the-art NER models correspond to thesaurus entries in 75-90% of the cases, demonstrating the potential for manual meta- data enrichment. A dedicated NER model for Holocaust-related texts based on XLM- RoBERTa-Malach-v4 language model was developed. When evaluated on the VHA dataset, the model achieves 69.87% overall F1 score. Person entities are recognized most successfully, followed by Camp and Location entities, while Organization entities prove most challenging to identify. This research contributes to digital humanities by providing specialized NER tools for Holocaust testimony processing and demonstrating the poten- tial for enhancement of manual annotations.
