Využití variačních autoenkodérů pro zpracování obrazových dat
The Application of Variational Autoencoders in Image Processing
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/200818Identifikátory
SIS: 279477
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Čelko, Tomáš
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Katedra teoretické informatiky a matematické logiky
Datum obhajoby
20. 6. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
zpracování obrazových dat|generativní modely hlubokých neuronových sítí|variační autoenkodéry|vizualizace latentního prostoru|reprezentace znalostíKlíčová slova (anglicky)
image data processing|generative models of deep neural networks|variational autoencoders|latent space visualization|knowledge representationTato práce se zabývá návrhem a analýzou rozšířeného modelu variačního autoenkodéru (VAE), jehož latentní prostor je využíván nejen pro rekonstrukci vstupních dat, ale i pro klasifikaci. Cílem je vytvořit architekturu, která efektivně kombinuje generativní a diskriminační složky a umožňuje tak získat latentní reprezentaci vzorků vhodnou pro obě úlohy. V práci nejprve formálně popisujeme princip fungování VAE a jeho cílovou funkci. Následně představujeme vlastní návrh modelu, včetně volby architektury a způsobu učení. Velký důraz je kladen na analýzu latentního prostoru, který hodnotíme pomocí vizualizace (UMAP), měření Eukleidovských vzdáleností a analýzou špatně zařazených vzorků. V experimentální části prezentujeme dosažené výsledky, včetně klasifikační přesnosti a vývoje cílové funkce. Navržený model ukazuje, že propojení klasifikace s generativním přístupem může vést ke smysluplným a dobře interpretovatelným latentním reprezentacím.
This thesis focuses on the design and analysis of an extended Variational Autoencoder (VAE) model, where the latent space is used not only for reconstructing input data but also for classification tasks. The objective is to develop an architecture that effectively combines generative and discriminative components, allowing for the extraction of latent representations suitable for both purposes. The work begins with a formal description of the VAE's underlying principles and objective function. We then introduce our custom model design, which includes architectural choices and the training methodology. We place particular emphasis on analyzing the latent space, which is evaluated through visualization using UMAP, measurements of Euclidean distances, and an examination of misclassified samples. In the experimental section, we present the results achieved, including classification accuracy and the progression of the objective function. The proposed model demonstrates that integrating classification within a generative framework can lead to meaningful and interpretable latent representations.
