LLM-Based Synthetic Data Generation for NLP Metric Validation
Generování syntetických dat pomocí LLM pro validaci evaluačních metrik v NLP
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/209637Identifikátory
SIS: 288612
Kolekce
- Kvalifikační práce [12145]
Autor
Vedoucí práce
Oponent práce
Kartáč, Ivan
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
8. 6. 2026
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
large language models|natural language processing|automatic evaluation metrics|synthetic dataKlíčová slova (anglicky)
velké jazykové modely|zpracování přirozeného jazyka|automatické evaluační metriky|syntetická dataValidace evaluačních metrik pro NLG typicky využívá nákladné a časově náročné lidské anotace, které převážně existují pouze pro anglické datasety. Navrhujeme Meta-Judge, škálovatelný framework, který využívá LLM k vytváření syntetických evaluačních datasetů prostřednictvím sémantické degradace referenčních textů, čímž nahrazuje lidské hodnocení. Náš přístup validujeme pomocí meta-korelace, která meří shodu mezi pořadím metrik odvozených ze syntetických dat a těch odvozených z dat anotovaných lidmi. Experimentujeme napříč strojovým překladem, zodpovídáním otázek a sumarizací v osmi jazycích s využitím čtyř open-source LLM. Velké modely dosahují meta-korelace přes 0,9 na datasetech pro zodpovídání otázek. Za účelem snížení výpočetních nároků dotrénováváme model s 1B parametry pomocí GRPO s nesupervisovaným ensemblem metrik, čímž získáváme věštšinu výkonu velkých modelů.
Validating evaluation metrics for NLG typically relies on expensive and time-consuming human annotations, which predominantly exist for English datasets. We propose Meta-Judge, a scalable framework that uses LLMs to generate synthetic evaluation datasets via controlled semantic degradation of reference texts, replacing human judgment. We validate our approach using meta-correlation, measuring the alignment between metric rankings derived from synthetic data and those from human-annotated data. We experiment across Machine Translation, Question Answering, and Summarization in eight languages using 4 open-source LLMs. Large models achieve meta-correlation above 0.9 on question-answering datasets. To reduce inference cost, we finetune a 1B-parameter model using GRPO with an unsupervised ensemble of metrics, recovering most of the performance of large models.
