Authorship Attribution in Czech Poetry
Detekce autorského stylu v české poezii
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/202491Identifikátory
SIS: 283485
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Rosa, Rudolf
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
4. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
stylometrie|česká poezie|určení autora|Korpus českého veršeKlíčová slova (anglicky)
stylometry|czech poetry|authorship attribution|Corpus of Czech VerseTato práce se zabývá detekcí autorského stylu v české poezii. Určit správného autora je těžký problém i přes omezení na jednojazyčná data a odstranění nejméně tvořivých básníků. Tento úkol zjednodušíme zaměřením se na menší skupinu autorů; porovnáme několik metod, od jednoduché bag-of-words metody po soudobé jazykové modely. Do- sáhneme vysoké úspěšnosti a ukážeme několik způsobů, jak lze tyto modely rozebrat pro zajímavou stylometrickou analýzu. Pokusíme se rozšířit tyto metody na klasifikaci všech autorů, což vede k horším výsledkům. Přesto má nejlepší model naději na praktické vy- užití, jelikož často zařadí správného autora mezi prvních pět kandidátů. Spustíme jej na množině vygenerovaných básní, abychom mohli kvalitu generování ohodnotit.
This thesis addresses the problem of authorship attribution in Czech poetry. Even when restricted to monolingual data and filtering out the least profficient authors, identi- fying the correct creator remains difficult. We simplify the problem by classifying works of a small group of authors and compare various models from simple bag-of-words method to modern language models. We achieve strong accuracy and showcase a few possible ways in which these models can be dissected for an interesting stylometric analysis. We attempt to scale the same methods to classify all authors which leads to lower perfor- mance. Still, the best model often ranks the correct author among the top five candidates, showing potential for practical use. We run this model on a set of generated poetry to assess the quality of generation.
