Searching Image Collections Using Deep Representations of Local Regions
Vyhledávání v obrázkových kolekcích na základě lokálních regionů a reprezentací z hlubokých neuronových sítí
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/121009Identifiers
Study Information System: 184282
Collections
- Kvalifikační práce [10932]
Author
Advisor
Referee
Fink, Jiří
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Artificial Intelligence
Department
Department of Software Engineering
Date of defense
14. 9. 2020
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Very good
Keywords (Czech)
Hledání známeho objektu, Konvoluční neuronové sítě, Vyhledávání obrázků na základě obsahu, Explorace multimédiíKeywords (English)
Known-item search, Convolutional neural network, Content-based image retrieval, Multimedia explorationV úlohe "hľadanie známeho objektu" sa zameriavame na nájdenie vopred známeho obrázku v multimediálnej databáze. V tejto práci sa zameriavame na dva prístupy k riešeniu tohto problému, ktoré sú založené na vizuálnej podobnosti s hľadaným obrázkom. V prvom prístupe užívateľ vytvára koláž obrázkov (obrázky získa napríklad z dostupných vyhľadávačov obrázkov). Na základe tejto koláže naše riešenie poskytne užívateľovi prehľad najpodobnejších obrázkov. Z našich výsledkov vyplýva, že spracovanie obrázkov delením do niekoľkých častí je systém schopný poskytnúť lepšie výsledky v porovnaní so systémom, ktorý nezohľadňuje pozíciu obrázkov v koláži, či prístup, ktorý ďalej upravuje vrstvu v neurónovej sieti. Druhá časť našej práce sa zameriava na možnosť vyhľadávania v databáze na základe obrázkov tvári ľudí. V práci ďalej skúmame využitie reprezentácii, vytvorených hlbokými neurónovými sieťami k zotriedeniu tvárí na základe ich podobností. Ďalej prezentujeme jednoduchú štruktúru na prezeranie väčšieho súboru tvárí. Práca zahrňuje program, ktorý prezentuje obe techniky.
In a known-item search task (KIS), the goal is to find a previously seen image in a multimedia collection. In this thesis, we discuss two different approaches based on the visual description of the image. In the first one, the user creates a collage of images (using images from an external search engine), based on which we provide the most similar results from the dataset. Our results show that preprocessing the images in the dataset by splitting them into several parts is a better way to work with the spatial information contained in the user input. We compared the approach to a baseline, which does not utilize this spatial information and an approach that alters a layer in a deep neural network. We also present an alternative approach to the KIS task, search by faces. In this approach, we work with the faces extracted from the images. We investigate face representation for the ability to sort the faces based on their similarity. Then we present a structure that allows easy exploration of the set of faces. We provide a demo, implementing all presented techniques.