Measuring Semantic Consistency in Consistency Models
Metriky pro sémantickou konzistenci Consistency modelů
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/209658Identifikátory
SIS: 283094
Kolekce
- Kvalifikační práce [12177]
Autor
Vedoucí práce
Oponent práce
Neruda, Roman
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Umělá inteligence
Katedra / ústav / klinika
Katedra teoretické informatiky a matematické logiky
Datum obhajoby
8. 6. 2026
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
Diffusion modely|Consistency modely|Sémantická konzistence|MetrikyKlíčová slova (anglicky)
Diffusion Models|Consistency Models|Semantic Consistency|MetricsSoučasná evaluace text-to-image generativních modelů se soustřeďuje na perceptuální kvalitu a zenedbává sémantickou konzistenci, tedy to jak dobře vygen- erovaný obrázek odpovídá promptu. Tato práce představuje Prompt- Aligned Semantic Score (PASS), jednoduchou metriku trénovanou přímo na ohodnocení lidmi (založenou na ImagenWorld datasetu). PASS rozšiřuje CLIP model o natrénovanou projekční a skórovou vrstvu, optimalizovanou pomocí kombinace střední kvadratické chyby a kontrastivní ztrátové funkce. Pro srovnání je implementována metrika TIT-Score založená na Qwen modelech. Na testovacích datech PASS dosahuje nejvyšší korelace s lidským ohodnocením a překonává jak TIT-Score tak CLIPScore. Ukazuje se tedy, že přímé učení na anotacích lidí, výrazně zlepšuje automatické hodnocení sémantické konzistence.
Current evaluations of text-to-image generative models focus on percep- tual quality while overlooking semantic consistency, how accurately a generated image matches its input prompt. This thesis introduces the Prompt-Aligned Semantic Score (PASS), a lightweight metric trained directly on human alignment ratings from the ImagenWorld dataset. PASS extends a frozen CLIP backbone with learned score and projection heads, optimized using a combined MSE and con- trastive loss. For comparison, TIT-Score is re-implemented using the Qwen model family. On the held-out test split, PASS achieves the strongest rank correlation with human evaluation, surpassing both TIT-Score and CLIPScore. Therefore, demonstrating that direct training on human annotations enhances automatic evaluation of semantic consistency.
Citace dokumentu
Metadata
Zobrazit celý záznamSouvisející záznamy
Zobrazují se záznamy příbuzné na základě názvu, autora a předmětu.
-
Ontogeneze personality u zvířat
Výsledek obhajoby: OBHÁJENOPšeničková, Eliška (Univerzita Karlova, Přírodovědecká fakulta, 2019)Datum obhajoby: 4. 6. 2019Personalita neboli konzistentní individuální rozdíly v chování zvířat napříč časem a kontexty, je oblíbeným tématem, kterým se zabývá velké množství studií. Prací popisujících vývoj personality v delším časovém rozmezí ale ... -
Statistical Depth for Functional Data
Výsledek obhajoby: OBHÁJENONagy, Stanislav (Univerzita Karlova, Matematicko-fyzikální fakulta, 2016)Datum obhajoby: 19. 12. 2016Statistical data depth is a nonparametric tool applicable to multivariate datasets in an attempt to generalize quantiles to complex data such as random vectors, random functions, or distributions on manifolds and graphs. ... -
Kortewegovy tekutiny - modelování, analýza a počítačové simulace
Výsledek obhajoby: OBHÁJENOBlaškovičová, Monika (Univerzita Karlova, Matematicko-fyzikální fakulta, 2015)Datum obhajoby: 28. 1. 2015V práci jsou uvedeny dva možné termodynamické přístupy jak odvodit model navržený Kortewegem na počátku 20. století, který je vhodný k popisu fázových přechodů kapalina-pára s neostrým fázovým rozhraním. První přístup ...
