Asistent pre vysvetľovanie dátových sad postavený s využitím veľkého jazykového modelu
A dataset explanation assistant built using a large language model
Asistent pro vysvětlování datových sad postavený s využitím velkého jazykového modelu
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/203069Identifikátory
SIS: 278561
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Holubová, Irena
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Softwarové a datové inženýrství
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
9. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Slovenština
Známka
Dobře
Klíčová slova (česky)
analýza dat|data profiling|velký jazykový modelKlíčová slova (anglicky)
data analysis|data profiling|large language modelCieľom práce bolo navrhnúť a vytvoriť webovú aplikáciu pre dátových analytikov a ďalších používateľov, ktorí pracujú s rôznymi datasetmi. Aplikácia má za cieľ pomôcť používateľom porozumieť datasetu a zistiť, či je vhodný pre používateľom zamýšľanú úlohu. Aplikácia umožňuje nahrať dataset, ktorý môže pozostávať z jedného alebo viace- rých CSV súborov. Po nahratí prebehne analýza, v ktorej sa využíva dátové profilovanie datasetu a veľký jazykový model. Jej výsledkom je ucelený súhrn zistených informácií o štruktúre a význame položiek datasetu - dataset knowledge. Ten je neskôr prezentovaný používateľovi. Požívateľ si môže pre každý analyzovaný dataset vytvoriť chat s asisten- tom, v ktorom je schopný pomocou prirodzeného jazyka dopýtať sa na detaily týkajúce sa datasetu a zamýšľanej úlohy, prípadne požiadať asistenta o úpravu dataset knowledge.
The goal of this master thesis was to design and create a web application for data ana- lysts and other users who work with various datasets. The application aims to help users understand the dataset and determine whether it is suitable for the user's intended task. The application allows the user to upload a dataset, which can consist of one or more CSV files. After uploading, an analysis is performed, which uses data profiling of the dataset and a large language model. The result is a comprehensive summary of the information found about the structure and meaning of the dataset items - dataset knowledge. This is later presented to the user. The user can create a chat with an assistant for each analyzed dataset, in which they can ask for details about the dataset and the intended task in natural language, or ask the assistant to edit the dataset knowledge.
