Design and Evaluation of a Retrieval-Augmented Generation System for Czech

Sajdoková, Anna

Návrh a evaluace systému generování textu s podporou vyhledávání pro češtinu

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (346.2Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/206938

Identifikátory

SIS: 287623

Konzultant práce

Bojar, Ondřej

Oponent práce

Straňák, Pavel

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika - Jazykové technologie a počítačová lingvistika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

4. 2. 2026

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

rag|velké jazykové modely|openwebui|evaluace

Klíčová slova (anglicky)

rag|llm|openwebui|evaluation

Tato diplomová práce se zabývá návrhem, implementací a vyhodnocením systému pro generování textu s podporou vyhledávání v dokumentech (RAG) se zaměřením na češtinu. Systematicky analyzujeme jednotlivé části RAG systému, včetně předzpracování PDF dokumentů, segmentace textu a volby embedovacích i generativních modelů. Vy- hodnocujeme jedenáct embedovacích modelů a referenční metodu BM25 na dvou českých datasetech: DaReCzech-Test a námi vytvořeném datasetu Wikipedia-NLP. Navíc pro- vádíme malou uživatelskou studii se šesti účastníky, která porovnává čtyři generativní modely v rámci kompletního RAG systému. Nejlepších výsledků ve vyhledávání dosahuje model Qwen3-embedding:4B. Metoda BM25 zůstává silnou referenční metodou na CPU, která překonává menší embedovací modely. V uživatelské studii uživatelé preferují model Llama 3.3, zatímco model GPT-OSS dosahuje nejvyšší faktické přesnosti. Zpřístupňujeme Docker kontejner založený na image OpenWebUI s námi nalezeným nejlepším nastavením RAG systému.

Abstrakt (anglicky)

The goal of this thesis is to design, implement, and evaluate a Retrieval-Augmented Generation (RAG) pipeline for Czech. We systematically analyze individual RAG compo- nents, including PDF preprocessing, text chunking, and both embedding and generative models. We evaluate a BM25 baseline and eleven embedding models using two Czech datasets: DaReCzech-Test and a custom-made Wikipedia-NLP. Additionally, we compare multiple generative models within an end-to-end RAG pipeline in a small-scale study with six participants. In retrieval, Qwen3-embedding:4B achieves the best performance. BM25 remains a strong CPU-only baseline outperforming smaller embedding models. For gen- eration, Llama 3.3 is preferred by users, whereas GPT-OSS achieves the highest factual accuracy. We release a pre-packaged Docker container based on OpenWebUI with our best-performing RAG configuration.

Citace dokumentu

Metadata

Zobrazit celý záznam