Asistent pre vysvetľovanie dátových sad postavený s využitím veľkého jazykového modelu

Truchan, Milan

A dataset explanation assistant built using a large language model
Asistent pro vysvětlování datových sad postavený s využitím velkého jazykového modelu

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (408.3Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/203069

Identifikátory

SIS: 278561

Oponent práce

Holubová, Irena

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika - Softwarové a datové inženýrství

Katedra / ústav / klinika

Katedra softwarového inženýrství

Datum obhajoby

9. 9. 2025

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Slovenština

Známka

Dobře

Klíčová slova (česky)

analýza dat|data profiling|velký jazykový model

Klíčová slova (anglicky)

data analysis|data profiling|large language model

Cieľom práce bolo navrhnúť a vytvoriť webovú aplikáciu pre dátových analytikov a ďalších používateľov, ktorí pracujú s rôznymi datasetmi. Aplikácia má za cieľ pomôcť používateľom porozumieť datasetu a zistiť, či je vhodný pre používateľom zamýšľanú úlohu. Aplikácia umožňuje nahrať dataset, ktorý môže pozostávať z jedného alebo viace- rých CSV súborov. Po nahratí prebehne analýza, v ktorej sa využíva dátové profilovanie datasetu a veľký jazykový model. Jej výsledkom je ucelený súhrn zistených informácií o štruktúre a význame položiek datasetu - dataset knowledge. Ten je neskôr prezentovaný používateľovi. Požívateľ si môže pre každý analyzovaný dataset vytvoriť chat s asisten- tom, v ktorom je schopný pomocou prirodzeného jazyka dopýtať sa na detaily týkajúce sa datasetu a zamýšľanej úlohy, prípadne požiadať asistenta o úpravu dataset knowledge.

Abstrakt (anglicky)

The goal of this master thesis was to design and create a web application for data ana- lysts and other users who work with various datasets. The application aims to help users understand the dataset and determine whether it is suitable for the user's intended task. The application allows the user to upload a dataset, which can consist of one or more CSV files. After uploading, an analysis is performed, which uses data profiling of the dataset and a large language model. The result is a comprehensive summary of the information found about the structure and meaning of the dataset items - dataset knowledge. This is later presented to the user. The user can create a chat with an assistant for each analyzed dataset, in which they can ask for details about the dataset and the intended task in natural language, or ask the assistant to edit the dataset knowledge.

Citace dokumentu

Metadata

Zobrazit celý záznam