Deep learning and visualization of models for image captioning and multimodal translation
Hluboké učení a vizualizace modelů pro generování popisků obrázků a multimodální překlad
bachelor thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/119374Identifiers
Study Information System: 205540
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Rosa, Rudolf
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Institute of Formal and Applied Linguistics
Date of defense
7. 7. 2020
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Very good
Keywords (Czech)
hluboké učení, vizualizace, multimodální překlad, generování popisků obrázkůKeywords (English)
deep learning, visualization, multimodal translation, image captioningNázev práce: Hluboké Učení a Vizualizace Modelů pro Generování Popisků Obrázků a Multimodální Překlad Autor: Samuel Michalik Ústav: Ústav Formální a Aplikované Lingvistiky Vedoucí bakalářské práce: Mgr. Jindřich Helcl, Ústav Formální a Aplikované Lingvistiky Abstrakt: V posledných rokoch sa paradigma strojového učenia, nazývané hlboké učenie, ukázalo, ako vhodné pre exploitáciu moderného paralelného hardvéru a veľkých datasetov, pomáhajúc tak posunúť vpred hranicu súčasného výzkumu v mnohých odvetviach umelej inteligencie a zároveň nachádzajúc komerčné uplat- nenie. Hlboké učenie umožnuje systémom s jedným trénovacím objektívom riešiť komplikované úlohy cez vytváranie komplexných hierarchických reprezentácií. Ti- eto reprezentácie je však náročné interpretovať. V tejto práci skúmame možnosti interpretovateľnosti vizualizácií attention komponent a beam search dekódovania na úlohách image captioningu a multimodálneho prekladu a za týmto účelom vyvýjame softvérovú aplikáciu - Macaque, ktorá môže bežať ako lokálne, alebo ako online služba. Okrem toho predkladáme novú formulácie attention modulu, ktorú nazývame scaled general attention. Experimentálne porovnávame scaled general attention s ďalšími bežnými attention funkciami na štyroch rôznych ar- chitektúrach, vychádzajúcich z encoder-decoder frameworku na...
Title: Deep Learning and Visualization of Models for Image Captioning and Multimodal Translation Author: Samuel Michalik Institute: Institute of Formal and Applied Linguistics Supervisor: Mgr. Jindřich Helcl, Institute of Formal and Applied Linguistics Abstract: In recent years, the machine learning paradigm known as deep learning has proven to be well suited for the exploitation of modern parallel hardware and large datasets, helping to advance the frontier of research in many fields of arti- ficial intelligence and finding succesfull commercial applications. Deep learning allows end-to-end trainable systems to tackle difficult tasks by building complex hierarchical representations. However, these internal representations often avoid easy interpretation. We explore the possibilities of interpretable visualizations of attention components and beam search decoding at the task of image captioning and multimodal translation and build an application - Macaque, that can be run as an online service, to meet this end. Furthermore, we propose a novel attention function formulation, called scaled general attention. We experimentally evalu- ate scaled general attention along common attention functions on four different model architectures based on the encoder-decoder framework at the tasks of im- age captioning and...