Processing e-Resources Usage Data using LLM Agents
Zpracování dat o využívání e-zdrojů pomocí agentů založených na velkých jazykových modelech
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/202858Identifiers
Study Information System: 282354
Collections
- Kvalifikační práce [12065]
Author
Advisor
Referee
Pilát, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Software and Data Engineering
Department
Department of Distributed and Dependable Systems
Date of defense
9. 9. 2025
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
velké jazykové modely|multi-agentní systém|COUNTER MetricsKeywords (English)
large language models|multi-agent system|COUNTER MetricsTato práce se zabývá problémem automatického zpracování nestandardizovaných statistik o využívání digitálních zdrojů. Zatímco standard COUNTER je široce používán, mnoho platforem poskytuje data ve vlastních formátech, což komplikuje automatizaci. Byly zhodnoceny tři přístupy využívající velké jazykové modely (LLM): přímá konverze vstupních dat do CSV formátu, generování transformačních skriptů a použití parseru s pravidly generovanými LLM. Třetí přístup, využívající pokročilý jazykový model GPT-4o, se ukázal jako nejefektivnější. Byl vytvořen multi-agentní systém pro automatizaci zpracování dat, který integruje specializované agenty, API a poskytuje uživatelské rozhraní. Výsledky ukazují, že využití LLM může výrazně zjednodušit automatizaci zpracování nestandardizovaných COUNTER dat.
This thesis explores distinct approaches to automate the processing of non-standardized usage statistics for digital resources. While COUNTER Metrics is widely used, many plat- forms provide data in custom formats, complicating automation. Three approaches using large language models (LLMs) are evaluated: direct conversion of raw data to CSV, gen- eration of transformation scripts, and use of a custom parser with LLM-generated rules. The third approach, leveraging an advanced language model GPT-4o, proved most effec- tive. A multi-agent system was developed to automate processing, integrating specialized agents, APIs, and a user interface. The results demonstrate that LLMs can significantly enhance the automation of non-COUNTER data processing.
