Logo Detection in Video
Detekce loga ve videu
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/209613Identifikátory
SIS: 273962
Kolekce
- Kvalifikační práce [12123]
Autor
Vedoucí práce
Oponent práce
Šikudová, Elena
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Umělá inteligence
Katedra / ústav / klinika
Katedra teoretické informatiky a matematické logiky
Datum obhajoby
8. 6. 2026
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
Hluboké učení|Detekce loga|Syntetická dataKlíčová slova (anglicky)
Deep Learning|Logo Detection|Synthetic DataVýznamná část sportovního průmyslu je financována firmami výměnou za propagaci jejich značek, zejména prostřednictvím propagace jejich log ve vysílání. Tyto firmy však potřebují spolehlivé ověření, že slíbená množství reklamního prostoru je skutečně napl- něno. Toto ověření se tradičně opíralo o pracnou manuální kontrolu. V této diplomové práci vyvíjíme nástroje pro automatickou detekci log ve vysílání a přesné měření doby jejich zobrazení na obrazovce. Pro tyto potřeby vyhodnocujeme několik přístupů: Scale- Invariant Feature Transform (SIFT), You Only Look Once (YOLO) trénované na ručně anotovaných datech, YOLO trénované na výstupech ze SIFT, YOLO trénované na synte- tickém datasetu a jejich kombinace. Nejlepších výsledků jsme dosáhli s modelem YOLO trénovaným na ručně anotovaných datech (přesnost okolo 90%, senzitivita okolo 75%). Samotný SIFT se ukázal jako nevhodný kvůli silné závislosti na konkrétním logu. Velmi slibných výsledků jsme dosáhli s modelem YOLO trénovaným na syntetických datech a doladěným pomocí samogenerovaných anotací; u většiny log jsme tak dosáhli přesnosti a senzitivity v rozmezí 60-85%, aniž by bylo nutná ruční anotace dat. Dále jsme vyvinuli uživatelsky přívětivý nástroj pro efektivní anotaci dat a analýzu výsledků.
A significant portion of the sports industry is funded by companies in exchange for brand promotion, primarily through on-screen logo visibility. These companies require reliable verification that the promised exposure is delivered, which has traditionally relied on labor-intensive manual monitoring. In this thesis, we develop tools for automatic logo detection in video frames and accurate measurement of their on-screen duration. We evaluate several approaches: Scale-Invariant Feature Transform (SIFT), You Only Look Once (YOLO) trained on manually annotated data, YOLO trained on SIFT-generated outputs, YOLO trained on a synthetic dataset, and their combinations. The best perfor- mance was achieved with YOLO trained on manually annotated data (precision around 90%, recall around 75%). SIFT alone proved unsuitable due to strong dependence on the specific logo, with highly variable results. Very promising results were also obtained using YOLO trained on synthetic data and fine-tuned with bootstrapped annotations, achieving precision and recall between 60-85%, approaching the performance of YOLO trained on manually annotated data. We also developed a user-friendly tool for efficient data annotation and result analysis.
