Multimodal Ocular Disease Recognition

Havel, Daniel

Multimodální rozpoznávání očních onemocnění

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (346.0Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/207010

Identifikátory

SIS: 282833

Konzultant práce

Bouali, Kassem Anis

Oponent práce

Mirbauer, Martin

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika - Umělá inteligence

Katedra / ústav / klinika

Katedra softwaru a výuky informatiky

Datum obhajoby

9. 2. 2026

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Velmi dobře

Klíčová slova (česky)

Multimodální data|Hluboké učení|Multilabelová klasifikace|Klasifikace nemocí|Dataset ODIR

Klíčová slova (anglicky)

Multimodal data|Deep Learning|Multi-label classification|Disease Recognition|ODIR dataset

Multimodální rozpoznávání očních onemocnění Bc. Daniel Havel Katedra softwaru a výuky informatiky Abstrakt Fotografie očního pozadí umožňuje neinvazivní detekci onemocnění ohrožujících zrak, avšak manuální diagnostika zůstává náročná na zdroje vzhledem k nedostatku specia- listů. Tato práce systematicky zkoumá multimodální učení pro automatickou multilabel klasifikaci onemocnění na datasetu ODIR, který poskytuje bilaterální snímky očního po- zadí, metadata pacientů a diagnostická klíčová slova. Provádíme 20 kontrolovaných expe- rimentů porovnávajících jednostranné versus bilaterální vstupy, integraci demografických údajů a klíčových slov, strategie fúze příznaků, předzpracování a vzorkovací politiky. S využitím zmraženého modelu DINOv2 jako základu dosahuje i minimální lineární kla- sifikátor Final Score 0,725. Naše nejlepší konfigurace-late fusion s metadaty, predikcí klíčových slov a částečným odmrazením-dosahuje Final Score 0,742 a zlepšuje Cohe- novu Kappu o 5,2% oproti základnímu modelu. Zjistili jsme, že agresivní vzorkování zhoršuje výkon, zatímco CLAHE v LAB barevném prostoru a vyšší rozlišení přinášejí inkrementální zlepšení. Celkově tato studie objasňuje, kde multimodální integrace přináší smysluplná zlepšení v klinických klasifikačních metrikách. Klíčová slova: Multimodální data, Hluboké učení,...

Abstrakt (anglicky)

Multimodal Ocular Disease Recognition Bc. Daniel Havel Department of Software and Computer Science Education Abstract Fundus photography enables non-invasive detection of vision-threatening conditions, yet manual diagnosis remains resource-intensive due to specialist shortages. This thesis sys- tematically investigates multimodal learning for automated multi-label disease classifica- tion on the ODIR dataset, which provides bilateral fundus images, patient metadata, and diagnostic keywords. We conduct 20 controlled experiments comparing single-eye versus bilateral inputs, demographic and keyword integration, fusion strategies, preprocessing, and sampling policies. Using frozen DINOv2 features as baseline, even a minimal linear classifier achieves a Final Score of 0.725. Our best configuration-late fusion with meta- data, keyword prediction, and partial unfreezing-yields 0.742 Final Score and improves Cohen's Kappa by 5.2% over baseline. We find that aggressive oversampling degrades per- formance, while LAB-space CLAHE and higher resolution provide incremental benefits. Overall, this study clarifies where multimodal integration delivers meaningful improve- ments in clinical classification metrics. Keywords: Multimodal data, Deep Learning, Multi-label classification, Disease Recog- nition, ODIR dataset

Citace dokumentu

Metadata

Zobrazit celý záznam