Similarity Models for Content-based Video Retrieval
Modely podobnosti pro content-based video retrieval
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/184084Identifiers
Study Information System: 250220
Collections
- Kvalifikační práce [11325]
Author
Advisor
Referee
Sixtová, Ivana
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Software and Data Engineering
Department
Department of Software Engineering
Date of defense
6. 9. 2023
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
multimedia retrieval|modely podobnosti|deep learning|uživatelská studieKeywords (English)
multimedia retrieval|similarity models|deep learning|user studyVyhledávání multimédií je stále důležitější vzhledem k prudce rostoucímu objemu mul- timediálního obsahu. Proto je vyvíjeno mnoho nástrojů pro vyhledávání obrázků a videí, které využívají algoritmy modelování vizuální podobnosti pro vyhledávání podobných obrázků nebo tvorbu různých vizualizací. Tím pádem kvalita modelování podobnosti je pro tyto nástroje klíčová. Tato práce zkoumá různé modely podobnosti, jejich shodu s lidskými anotacemi a potenciální zlepšení. Do studie byly zahrnuty 3 třídy modelů podobnosti: modely založených na barvách, SIFTu nebo hlubokých neuronových sítí. Za tímto účelem byla provedena uživatelská studie s cílem vytvořit dataset relativních podob- ností obrázků s obecnými i specifickými obrázky. V této studii byli účastníci požádáni, aby vždy vybrali mezi dvěma možnostmi tu, která byla podobnější hlavnímu obrázku. Shromážděná data ukázala lepší výsledky modelů založených na hlubokých neuronových sítích ve srovnání s ostatními hodnocenými variantami. Nicméně všechny modely podob- nosti si vedly výrazně lépe než náhodný odhad. Abychom dále zvýšili přesnost modelů podobnosti, vyladili jsme model W2VV++ pomocí získaného datasetu. Díky tomu jsme v některých doménách dosáhli výrazného zlepšení. 1
Multimedia retrieval is increasingly important with the skyrocketing multimedia vol- umes produced every day. Therefore many image and video retrieval tools are being developed utilising visual similarity modelling algorithms for similar image retrieval or various visualisations. As such, the quality of the similarity modelling is crucial for these tools. This thesis explores diverse similarity models, their agreement with human percep- tion of similarity and possible improvements of these models. The examined similarity models consisted of colour-based, SIFT-based, and DNN-based models. For the purpose of model evaluation, a user study was conducted to create a dataset of relative image similarity comprising both generic images as well as two compact domains. In this study, the participants were asked to state which of the candidate images was more similar to the query image. The collected data showed the superiority of DNN-based models compared to other evaluated variants. Nonetheless, all similarity models performed significantly better than a random guess. In order to further enhance the performance of the simi- larity models, we fine-tuned the best-performing model (W2VV++) with the collected dataset and achieved significant improvement in some areas. 1