Processing e-Resources Usage Data using LLM Agents

Varšíková, Diana

Zpracování dat o využívání e-zdrojů pomocí agentů založených na velkých jazykových modelech

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (408.1Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/202858

Identifikátory

SIS: 282354

Oponent práce

Pilát, Martin

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika - Softwarové a datové inženýrství

Katedra / ústav / klinika

Katedra distribuovaných a spolehlivých systémů

Datum obhajoby

9. 9. 2025

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

velké jazykové modely|multi-agentní systém|COUNTER Metrics

Klíčová slova (anglicky)

large language models|multi-agent system|COUNTER Metrics

Tato práce se zabývá problémem automatického zpracování nestandardizovaných statistik o využívání digitálních zdrojů. Zatímco standard COUNTER je široce používán, mnoho platforem poskytuje data ve vlastních formátech, což komplikuje automatizaci. Byly zhodnoceny tři přístupy využívající velké jazykové modely (LLM): přímá konverze vstupních dat do CSV formátu, generování transformačních skriptů a použití parseru s pravidly generovanými LLM. Třetí přístup, využívající pokročilý jazykový model GPT-4o, se ukázal jako nejefektivnější. Byl vytvořen multi-agentní systém pro automatizaci zpracování dat, který integruje specializované agenty, API a poskytuje uživatelské rozhraní. Výsledky ukazují, že využití LLM může výrazně zjednodušit automatizaci zpracování nestandardizovaných COUNTER dat.

Abstrakt (anglicky)

This thesis explores distinct approaches to automate the processing of non-standardized usage statistics for digital resources. While COUNTER Metrics is widely used, many plat- forms provide data in custom formats, complicating automation. Three approaches using large language models (LLMs) are evaluated: direct conversion of raw data to CSV, gen- eration of transformation scripts, and use of a custom parser with LLM-generated rules. The third approach, leveraging an advanced language model GPT-4o, proved most effec- tive. A multi-agent system was developed to automate processing, integrating specialized agents, APIs, and a user interface. The results demonstrate that LLMs can significantly enhance the automation of non-COUNTER data processing.

Citace dokumentu

Metadata

Zobrazit celý záznam