Image Segmentation of Museum Data Using Deep Learning.

Frátrik, Roman

Segmentace obrazu muzejních dat pomocí hlubokého učení.

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (407.6Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/202439

Identifikátory

SIS: 276926

Oponent práce

Holeňa, Martin

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika se specializací Umělá inteligence

Katedra / ústav / klinika

Katedra softwaru a výuky informatiky

Datum obhajoby

4. 9. 2025

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

Klíčová slova (anglicky)

Tato práce zkoumá využití segmentace bez učení modelů hlubokého učení pro seg- mentaci obrazů v oblasti muzejních artefaktů, přičemž řeší problémy jako vizuální nejed- noznačnost a nedostatek anotovaných dat. Dva modely, SAM2 a YOLOE, byly hodno- ceny na datové sadě muzejních snímků ve třech úlohách: generování ohraničujících boxů, segmentace bez učení a segmentace na základě prostorových podnětů. YOLOE dosáhl nejlepších výsledků v úlohách bez podnětů, zatímco SAM2 exceloval při použití pros- torových podnětů, což potvrzuje jeho vhodnost pro poloautomatické pracovní postupy. Klasické metody zůstávají užitečné ve specifických případech. Výsledky naznačují, že kombinace moderních modelů s minimálním vstupem uživatele nabízí škálovatelné řešení segmentace v podmínkách s omezenými zdroji. 1

Abstrakt (anglicky)

This thesis investigates zero-shot deep learning models for segmenting cultural her- itage and museum artifacts, addressing challenges like visual ambiguity and scarce anno- tations. Two models, SAM2 and YOLOE, were evaluated on a museum image dataset across three tasks: bounding box generation, zero-shot segmentation, and segmentation from spatial prompts. YOLOE performed best in prompt-free tasks, while SAM2 excelled with spatial prompts, supporting its role in semi-automated workflows. Classical methods remained useful in limited cases. Results suggest that combining prompt-driven models with minimal user input offers a scalable solution for segmentation in resource-constrained cultural domains. 1

Citace dokumentu

Metadata

Zobrazit celý záznam