Logo Detection in Video

Charvátová, Lucie

Detekce loga ve videu

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (295.7Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/209613

Identifikátory

SIS: 273962

Oponent práce

Šikudová, Elena

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika - Umělá inteligence

Katedra / ústav / klinika

Katedra teoretické informatiky a matematické logiky

Datum obhajoby

8. 6. 2026

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

Hluboké učení|Detekce loga|Syntetická data

Klíčová slova (anglicky)

Deep Learning|Logo Detection|Synthetic Data

Významná část sportovního průmyslu je financována firmami výměnou za propagaci jejich značek, zejména prostřednictvím propagace jejich log ve vysílání. Tyto firmy však potřebují spolehlivé ověření, že slíbená množství reklamního prostoru je skutečně napl- něno. Toto ověření se tradičně opíralo o pracnou manuální kontrolu. V této diplomové práci vyvíjíme nástroje pro automatickou detekci log ve vysílání a přesné měření doby jejich zobrazení na obrazovce. Pro tyto potřeby vyhodnocujeme několik přístupů: Scale- Invariant Feature Transform (SIFT), You Only Look Once (YOLO) trénované na ručně anotovaných datech, YOLO trénované na výstupech ze SIFT, YOLO trénované na synte- tickém datasetu a jejich kombinace. Nejlepších výsledků jsme dosáhli s modelem YOLO trénovaným na ručně anotovaných datech (přesnost okolo 90%, senzitivita okolo 75%). Samotný SIFT se ukázal jako nevhodný kvůli silné závislosti na konkrétním logu. Velmi slibných výsledků jsme dosáhli s modelem YOLO trénovaným na syntetických datech a doladěným pomocí samogenerovaných anotací; u většiny log jsme tak dosáhli přesnosti a senzitivity v rozmezí 60-85%, aniž by bylo nutná ruční anotace dat. Dále jsme vyvinuli uživatelsky přívětivý nástroj pro efektivní anotaci dat a analýzu výsledků.

Abstrakt (anglicky)

A significant portion of the sports industry is funded by companies in exchange for brand promotion, primarily through on-screen logo visibility. These companies require reliable verification that the promised exposure is delivered, which has traditionally relied on labor-intensive manual monitoring. In this thesis, we develop tools for automatic logo detection in video frames and accurate measurement of their on-screen duration. We evaluate several approaches: Scale-Invariant Feature Transform (SIFT), You Only Look Once (YOLO) trained on manually annotated data, YOLO trained on SIFT-generated outputs, YOLO trained on a synthetic dataset, and their combinations. The best perfor- mance was achieved with YOLO trained on manually annotated data (precision around 90%, recall around 75%). SIFT alone proved unsuitable due to strong dependence on the specific logo, with highly variable results. Very promising results were also obtained using YOLO trained on synthetic data and fine-tuned with bootstrapped annotations, achieving precision and recall between 60-85%, approaching the performance of YOLO trained on manually annotated data. We also developed a user-friendly tool for efficient data annotation and result analysis.

Citace dokumentu

Metadata

Zobrazit celý záznam