Design and Evaluation of a Retrieval-Augmented Generation System for Czech
Návrh a evaluace systému generování textu s podporou vyhledávání pro češtinu
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/206938Identifikátory
SIS: 287623
Kolekce
- Kvalifikační práce [12042]
Autor
Vedoucí práce
Konzultant práce
Bojar, Ondřej
Oponent práce
Straňák, Pavel
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Jazykové technologie a počítačová lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
4. 2. 2026
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
rag|velké jazykové modely|openwebui|evaluaceKlíčová slova (anglicky)
rag|llm|openwebui|evaluationTato diplomová práce se zabývá návrhem, implementací a vyhodnocením systému pro generování textu s podporou vyhledávání v dokumentech (RAG) se zaměřením na češtinu. Systematicky analyzujeme jednotlivé části RAG systému, včetně předzpracování PDF dokumentů, segmentace textu a volby embedovacích i generativních modelů. Vy- hodnocujeme jedenáct embedovacích modelů a referenční metodu BM25 na dvou českých datasetech: DaReCzech-Test a námi vytvořeném datasetu Wikipedia-NLP. Navíc pro- vádíme malou uživatelskou studii se šesti účastníky, která porovnává čtyři generativní modely v rámci kompletního RAG systému. Nejlepších výsledků ve vyhledávání dosahuje model Qwen3-embedding:4B. Metoda BM25 zůstává silnou referenční metodou na CPU, která překonává menší embedovací modely. V uživatelské studii uživatelé preferují model Llama 3.3, zatímco model GPT-OSS dosahuje nejvyšší faktické přesnosti. Zpřístupňujeme Docker kontejner založený na image OpenWebUI s námi nalezeným nejlepším nastavením RAG systému.
The goal of this thesis is to design, implement, and evaluate a Retrieval-Augmented Generation (RAG) pipeline for Czech. We systematically analyze individual RAG compo- nents, including PDF preprocessing, text chunking, and both embedding and generative models. We evaluate a BM25 baseline and eleven embedding models using two Czech datasets: DaReCzech-Test and a custom-made Wikipedia-NLP. Additionally, we compare multiple generative models within an end-to-end RAG pipeline in a small-scale study with six participants. In retrieval, Qwen3-embedding:4B achieves the best performance. BM25 remains a strong CPU-only baseline outperforming smaller embedding models. For gen- eration, Llama 3.3 is preferred by users, whereas GPT-OSS achieves the highest factual accuracy. We release a pre-packaged Docker container based on OpenWebUI with our best-performing RAG configuration.
