Named Entity Recognition in Historical Texts
Rozpoznávání jmenných entit v historických textech
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/203164Identifikátory
SIS: 269051
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Straková, Jana
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Jazykové technologie a počítačová lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
10. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
zpracování přirozeného jazyka|jmenné entity|rozpoznávání jmenných entit|jazykové modely|digitální humanitní vědyKlíčová slova (anglicky)
Nature Language Processing|Named Entites|Named Entity Recognition|Language Models|Digital HumanitiesTato práce se zabývá rozpoznáváním pojmenovaných entit (NER) v historických ví- cejazyčných datech, přičemž hlavní pozornost je věnována výpovědím svědků holokaustu z archivu Visual History Archive (VHA). Studie analyzuje svědectví v češtině, nizo- zemštině, angličtině a němčině a ukazuje, že pouhých 25% anotovaných klíčových slov a 55% osob je v textech explicitně zmíněno. Pojmenované entity extrahované pomocí nejmodernějších NER modelů lze namapovat na hesla z thesauru v 75-90% případů, což naznačuje potenciál pro obohacení ručně vytvářených metadat. Pro texty s tématikou holokaustu byl vyvinut specializovaný NER model založený na jazykovém modelu XLM- RoBERTa-Malach-v4, který při vyhodnocení na VHA datasetu dosáhl celkového F1 skóre 69,87%. Nejvyšší úspěšnosti model dosahuje při rozpoznávání osob, dále také u kategorií tábor a místo, zatímco identifikace organizací pro něj představují největší výzvu. Výsledky této práce přispívají k rozvoji digitálních humanitních věd tím, že poskytují specializo- vané nástroje pro zpracování svědectví s tématikou holokaustu a ukazují možnosti, jak automatizovaně doplnit stávající ručně vytvořené anotace.
This thesis addresses Named Entity Recognition (NER) in historical multilingual texts, with a focus on Holocaust-related testimonies from the Visual History Archive (VHA). The study analyzes testimonies in Czech, Dutch, English, and German and shows that only about 25% of annotated keywords and 55% of persons are explicitly mentioned within the testimonies. Named entities extracted by state-of-the-art NER models correspond to thesaurus entries in 75-90% of the cases, demonstrating the potential for manual meta- data enrichment. A dedicated NER model for Holocaust-related texts based on XLM- RoBERTa-Malach-v4 language model was developed. When evaluated on the VHA dataset, the model achieves 69.87% overall F1 score. Person entities are recognized most successfully, followed by Camp and Location entities, while Organization entities prove most challenging to identify. This research contributes to digital humanities by providing specialized NER tools for Holocaust testimony processing and demonstrating the poten- tial for enhancement of manual annotations.
