Normalization of non-standardized varieties of Early English using AI language models
Normalizace nestandardizovaných variet ranné angličtiny pomocí AI jazykových modelů
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/205439Identifikátory
SIS: 268052
Kolekce
- Kvalifikační práce [24991]
Autor
Vedoucí práce
Oponent práce
Fúsik, Ondřej
Fakulta / součást
Filozofická fakulta
Obor
Anglistika-amerikanistika
Katedra / ústav / klinika
Ústav lingvistiky
Datum obhajoby
8. 9. 2025
Nakladatel
Univerzita Karlova, Filozofická fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
standardizace|ortografie|variace|AI|LLM|raně moderní angličtina|ChatGPT|Claude|Llama|Gemini|CopilotKlíčová slova (anglicky)
Early Modern English|standardization|orthography|variation|AI|LLM|ChatGPT|Claude|Llama|Gemini|Copilot(česky) Tato bakalářská práce zkoumá potenciál velkých jazykových modelů pro normalizaci nestandardizovaných variant rané moderní angličtiny do současné angličtiny. Cílem bylo zjistit, jak efektivně mohou "mainstreamové", nespecializované modely (ChatGPT, Gemini, Copilot, Llama a Claude) standardizovat texty z různých období a žánrů raně moderní angličtiny - jak se jejich výstupy liší od ručně standardizovaných verzí. Analýza zahrnovala 15 textů z pěti žánrů (literární texty, náboženské texty, administrativní texty, vzdělávací texty, korespondence) a tří chronologických období (1500-1550, 1550-1600, 1600-1650). Texty byly ručně standardizovány a zkráceny na přibližně 500 slov. Výkon modelu byl hodnocen pomocí edit distance (ED), přesnosti a úplnosti. ChatGPT dosáhl nejlepších výsledků (průměrná ED 3,1; přesnost 0,998; úplnost 0,991), následovaný Claude (4,9) a Gemini (5,9). Na základě ED byly modely nejefektivnější v pozdějších obdobích EModE, přesnost a úplnost však zůstaly v jednotlivých obdobích relativně stabilní. V žánru si modely vedly nejlépe u náboženských textů (ED 3,1) a nejhůře u vzdělávacích textů (12,3). Výsledky naznačují, že moderní LLM, zejména ChatGPT, mohou překonat tradiční nástroje (v porovnání se standardizovanými texty z databáze Early Print) a nabízejí rychlý a relativně...
(in English): This bachelor's thesis investigates the potential of large language models (LLMs) for normalizing non-standardized varieties of Early Modern English (EModE) into Present-Day English. The aim was to determine how effectively "mainstream", non-specialized models (ChatGPT, Gemini, Copilot, Llama, and Claude) can standardize texts from various periods and genres of EModE - how their outputs compare to manually standardized versions. The analysis covered 15 texts from five genres (literary texts, religious texts, administrative texts, educational texts, correspondence) and three chronological stages (1500-1550, 1550-1600, 1600-1650). The texts were manually standardized and shortened to approximately 500 words. Model performance was evaluated using edit distance (ED), precision, and recall. ChatGPT achieved the best results (average ED 3.1; precision 0.998; recall 0.991), followed by Claude (4.9) and Gemini (5.9). Based on ED, models were more effective in later EModE periods, however, precision and recall remained relatively stable across periods. By genre, the models performed best on religious texts (ED 3.1) and worst on educational texts (12.3). The findings suggest that modern LLMs, particularly ChatGPT, can outperform traditional tools (compared to standardized texts from the Early...
