Object detection for video surveillance using the SSD approach

Dobranský, Marek

Detekce objektů pro kamerový dohled pomocí SSD přístupu

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (151.6Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/107024

Identifikátory

SIS: 211704

Katalog UK: 990022822710106986

Oponent práce

Božovský, Petr

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Umělá inteligence

Katedra / ústav / klinika

Katedra softwarového inženýrství

Datum obhajoby

10. 6. 2019

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

detekce objektů, kamerový dohled, hluboké neuronové sítě, architektura SSD

Klíčová slova (anglicky)

object detection, video surveillance, deep neural networks, SSD architecture

Kamerové systémy dnes slouží různým účelům, od bezpečnosti k moni- torování dopravy a marketingu. Nicméně, s rostoucím množstvím kamer se stává manuální sledování videa příliš pracné. V posledních letech se hodně vývoje umělé inteligence zaměřilo na automatické zpracování videa a následný výstup požadovaných upozornění a statistik. Tato práce zkoumá nejmodernější modely hlubokého učení pro detekci objektů v bezpečnostním videu a podrobně se zabývá SSD architekturou. Našim hlavním cílem je zvýšit výkon SSD ar- chitektury aktualizací vnitřní sítě extrahující tzv. feature mapy. V práci jsou navrženy možnosti nahrazení původního VGG modelu pomocí nejnovějších klasi- fikačních sítí ResNet, Xception a NASNet. Experimentálně jsme zjistili, že model ResNet50 nabízí nejlepší kompromis mezi rychlostí a přesností. Tento model zároveň výrazně překonává VGG. Po zavedení řady modifikací do sítě Xception se nám povedlo dorovnat výkon ResNetu. Kromě vylepšení architek- tury také analyzujeme vztah mezi SSD a množstvím detekovaných tříd a jejich výběrem. Také jsme navrhli a implementovali nový detektor, který využívá tem- porální kontext snímku pro detekci objektů. Tento detektor pracuje v...

Abstrakt (anglicky)

The surveillance cameras serve various purposes ranging from security to traffic monitoring and marketing. However, with the increasing quantity of utilized cameras, manual video monitoring has become too laborious. In re- cent years, a lot of development in artificial intelligence has been focused on processing the video data automatically and then outputting the desired no- tifications and statistics. This thesis studies the state-of-the-art deep learning models for object detection in a surveillance video and takes an in-depth look at SSD architecture. We aim to enhance the performance of SSD by updating its underlying feature extraction network. We propose to replace the initially used VGG model by a selection of modern ResNet, Xception and NASNet classifica- tion networks. The experiments show that the ResNet50 model offers the best trade-off between speed and precision, while significantly outperforming VGG. With a series of modifications, we improved the Xception model to match the ResNet performance. On top of the architecture-based improvements, we ana- lyze the relationship between SSD and a number of detected classes and their selection. We also designed and implemented a new detector with the use of temporal context provided by the video frames. This detector delivers enhanced precision while...

Citace dokumentu

Metadata

Zobrazit celý záznam