Multimodal Ocular Disease Recognition
Multimodální rozpoznávání očních onemocnění
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/207010Identifikátory
SIS: 282833
Kolekce
- Kvalifikační práce [12051]
Autor
Vedoucí práce
Konzultant práce
Bouali, Kassem Anis
Oponent práce
Mirbauer, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Umělá inteligence
Katedra / ústav / klinika
Katedra softwaru a výuky informatiky
Datum obhajoby
9. 2. 2026
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Velmi dobře
Klíčová slova (česky)
Multimodální data|Hluboké učení|Multilabelová klasifikace|Klasifikace nemocí|Dataset ODIRKlíčová slova (anglicky)
Multimodal data|Deep Learning|Multi-label classification|Disease Recognition|ODIR datasetMultimodální rozpoznávání očních onemocnění Bc. Daniel Havel Katedra softwaru a výuky informatiky Abstrakt Fotografie očního pozadí umožňuje neinvazivní detekci onemocnění ohrožujících zrak, avšak manuální diagnostika zůstává náročná na zdroje vzhledem k nedostatku specia- listů. Tato práce systematicky zkoumá multimodální učení pro automatickou multilabel klasifikaci onemocnění na datasetu ODIR, který poskytuje bilaterální snímky očního po- zadí, metadata pacientů a diagnostická klíčová slova. Provádíme 20 kontrolovaných expe- rimentů porovnávajících jednostranné versus bilaterální vstupy, integraci demografických údajů a klíčových slov, strategie fúze příznaků, předzpracování a vzorkovací politiky. S využitím zmraženého modelu DINOv2 jako základu dosahuje i minimální lineární kla- sifikátor Final Score 0,725. Naše nejlepší konfigurace-late fusion s metadaty, predikcí klíčových slov a částečným odmrazením-dosahuje Final Score 0,742 a zlepšuje Cohe- novu Kappu o 5,2% oproti základnímu modelu. Zjistili jsme, že agresivní vzorkování zhoršuje výkon, zatímco CLAHE v LAB barevném prostoru a vyšší rozlišení přinášejí inkrementální zlepšení. Celkově tato studie objasňuje, kde multimodální integrace přináší smysluplná zlepšení v klinických klasifikačních metrikách. Klíčová slova: Multimodální data, Hluboké učení,...
Multimodal Ocular Disease Recognition Bc. Daniel Havel Department of Software and Computer Science Education Abstract Fundus photography enables non-invasive detection of vision-threatening conditions, yet manual diagnosis remains resource-intensive due to specialist shortages. This thesis sys- tematically investigates multimodal learning for automated multi-label disease classifica- tion on the ODIR dataset, which provides bilateral fundus images, patient metadata, and diagnostic keywords. We conduct 20 controlled experiments comparing single-eye versus bilateral inputs, demographic and keyword integration, fusion strategies, preprocessing, and sampling policies. Using frozen DINOv2 features as baseline, even a minimal linear classifier achieves a Final Score of 0.725. Our best configuration-late fusion with meta- data, keyword prediction, and partial unfreezing-yields 0.742 Final Score and improves Cohen's Kappa by 5.2% over baseline. We find that aggressive oversampling degrades per- formance, while LAB-space CLAHE and higher resolution provide incremental benefits. Overall, this study clarifies where multimodal integration delivers meaningful improve- ments in clinical classification metrics. Keywords: Multimodal data, Deep Learning, Multi-label classification, Disease Recog- nition, ODIR dataset
