Processing e-Resources Usage Data using LLM Agents
Zpracování dat o využívání e-zdrojů pomocí agentů založených na velkých jazykových modelech
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/202858Identifikátory
SIS: 282354
Kolekce
- Kvalifikační práce [11982]
Autor
Vedoucí práce
Oponent práce
Pilát, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Softwarové a datové inženýrství
Katedra / ústav / klinika
Katedra distribuovaných a spolehlivých systémů
Datum obhajoby
9. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
velké jazykové modely|multi-agentní systém|COUNTER MetricsKlíčová slova (anglicky)
large language models|multi-agent system|COUNTER MetricsTato práce se zabývá problémem automatického zpracování nestandardizovaných statistik o využívání digitálních zdrojů. Zatímco standard COUNTER je široce používán, mnoho platforem poskytuje data ve vlastních formátech, což komplikuje automatizaci. Byly zhodnoceny tři přístupy využívající velké jazykové modely (LLM): přímá konverze vstupních dat do CSV formátu, generování transformačních skriptů a použití parseru s pravidly generovanými LLM. Třetí přístup, využívající pokročilý jazykový model GPT-4o, se ukázal jako nejefektivnější. Byl vytvořen multi-agentní systém pro automatizaci zpracování dat, který integruje specializované agenty, API a poskytuje uživatelské rozhraní. Výsledky ukazují, že využití LLM může výrazně zjednodušit automatizaci zpracování nestandardizovaných COUNTER dat.
This thesis explores distinct approaches to automate the processing of non-standardized usage statistics for digital resources. While COUNTER Metrics is widely used, many plat- forms provide data in custom formats, complicating automation. Three approaches using large language models (LLMs) are evaluated: direct conversion of raw data to CSV, gen- eration of transformation scripts, and use of a custom parser with LLM-generated rules. The third approach, leveraging an advanced language model GPT-4o, proved most effec- tive. A multi-agent system was developed to automate processing, integrating specialized agents, APIs, and a user interface. The results demonstrate that LLMs can significantly enhance the automation of non-COUNTER data processing.
