Measuring Semantic Consistency in Consistency Models

Ciklamíniová, Martina

Metriky pro sémantickou konzistenci Consistency modelů

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (295.8Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/209658

Identifikátory

SIS: 283094

Oponent práce

Neruda, Roman

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika - Umělá inteligence

Katedra / ústav / klinika

Katedra teoretické informatiky a matematické logiky

Datum obhajoby

8. 6. 2026

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

Diffusion modely|Consistency modely|Sémantická konzistence|Metriky

Klíčová slova (anglicky)

Diffusion Models|Consistency Models|Semantic Consistency|Metrics

Současná evaluace text-to-image generativních modelů se soustřeďuje na perceptuální kvalitu a zenedbává sémantickou konzistenci, tedy to jak dobře vygen- erovaný obrázek odpovídá promptu. Tato práce představuje Prompt- Aligned Semantic Score (PASS), jednoduchou metriku trénovanou přímo na ohodnocení lidmi (založenou na ImagenWorld datasetu). PASS rozšiřuje CLIP model o natrénovanou projekční a skórovou vrstvu, optimalizovanou pomocí kombinace střední kvadratické chyby a kontrastivní ztrátové funkce. Pro srovnání je implementována metrika TIT-Score založená na Qwen modelech. Na testovacích datech PASS dosahuje nejvyšší korelace s lidským ohodnocením a překonává jak TIT-Score tak CLIPScore. Ukazuje se tedy, že přímé učení na anotacích lidí, výrazně zlepšuje automatické hodnocení sémantické konzistence.

Abstrakt (anglicky)

Current evaluations of text-to-image generative models focus on percep- tual quality while overlooking semantic consistency, how accurately a generated image matches its input prompt. This thesis introduces the Prompt-Aligned Semantic Score (PASS), a lightweight metric trained directly on human alignment ratings from the ImagenWorld dataset. PASS extends a frozen CLIP backbone with learned score and projection heads, optimized using a combined MSE and con- trastive loss. For comparison, TIT-Score is re-implemented using the Qwen model family. On the held-out test split, PASS achieves the strongest rank correlation with human evaluation, surpassing both TIT-Score and CLIPScore. Therefore, demonstrating that direct training on human annotations enhances automatic evaluation of semantic consistency.

Citace dokumentu

Metadata

Zobrazit celý záznam