Named Entity Recognition in Historical Texts

Tauchmanová, Klára

Rozpoznávání jmenných entit v historických textech

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (408.1Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/203164

Identifikátory

SIS: 269051

Oponent práce

Straková, Jana

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika - Jazykové technologie a počítačová lingvistika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

10. 9. 2025

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

zpracování přirozeného jazyka|jmenné entity|rozpoznávání jmenných entit|jazykové modely|digitální humanitní vědy

Klíčová slova (anglicky)

Nature Language Processing|Named Entites|Named Entity Recognition|Language Models|Digital Humanities

Tato práce se zabývá rozpoznáváním pojmenovaných entit (NER) v historických ví- cejazyčných datech, přičemž hlavní pozornost je věnována výpovědím svědků holokaustu z archivu Visual History Archive (VHA). Studie analyzuje svědectví v češtině, nizo- zemštině, angličtině a němčině a ukazuje, že pouhých 25% anotovaných klíčových slov a 55% osob je v textech explicitně zmíněno. Pojmenované entity extrahované pomocí nejmodernějších NER modelů lze namapovat na hesla z thesauru v 75-90% případů, což naznačuje potenciál pro obohacení ručně vytvářených metadat. Pro texty s tématikou holokaustu byl vyvinut specializovaný NER model založený na jazykovém modelu XLM- RoBERTa-Malach-v4, který při vyhodnocení na VHA datasetu dosáhl celkového F1 skóre 69,87%. Nejvyšší úspěšnosti model dosahuje při rozpoznávání osob, dále také u kategorií tábor a místo, zatímco identifikace organizací pro něj představují největší výzvu. Výsledky této práce přispívají k rozvoji digitálních humanitních věd tím, že poskytují specializo- vané nástroje pro zpracování svědectví s tématikou holokaustu a ukazují možnosti, jak automatizovaně doplnit stávající ručně vytvořené anotace.

Abstrakt (anglicky)

This thesis addresses Named Entity Recognition (NER) in historical multilingual texts, with a focus on Holocaust-related testimonies from the Visual History Archive (VHA). The study analyzes testimonies in Czech, Dutch, English, and German and shows that only about 25% of annotated keywords and 55% of persons are explicitly mentioned within the testimonies. Named entities extracted by state-of-the-art NER models correspond to thesaurus entries in 75-90% of the cases, demonstrating the potential for manual meta- data enrichment. A dedicated NER model for Holocaust-related texts based on XLM- RoBERTa-Malach-v4 language model was developed. When evaluated on the VHA dataset, the model achieves 69.87% overall F1 score. Person entities are recognized most successfully, followed by Camp and Location entities, while Organization entities prove most challenging to identify. This research contributes to digital humanities by providing specialized NER tools for Holocaust testimony processing and demonstrating the poten- tial for enhancement of manual annotations.

Citace dokumentu

Metadata

Zobrazit celý záznam