Deep learning and visualization of models for image captioning and multimodal translation
Hluboké učení a vizualizace modelů pro generování popisků obrázků a multimodální překlad
bakalářská práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/119374Identifikátory
SIS: 205540
Kolekce
- Kvalifikační práce [11264]
Autor
Vedoucí práce
Oponent práce
Rosa, Rudolf
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
7. 7. 2020
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Velmi dobře
Klíčová slova (česky)
hluboké učení, vizualizace, multimodální překlad, generování popisků obrázkůKlíčová slova (anglicky)
deep learning, visualization, multimodal translation, image captioningNázev práce: Hluboké Učení a Vizualizace Modelů pro Generování Popisků Obrázků a Multimodální Překlad Autor: Samuel Michalik Ústav: Ústav Formální a Aplikované Lingvistiky Vedoucí bakalářské práce: Mgr. Jindřich Helcl, Ústav Formální a Aplikované Lingvistiky Abstrakt: V posledných rokoch sa paradigma strojového učenia, nazývané hlboké učenie, ukázalo, ako vhodné pre exploitáciu moderného paralelného hardvéru a veľkých datasetov, pomáhajúc tak posunúť vpred hranicu súčasného výzkumu v mnohých odvetviach umelej inteligencie a zároveň nachádzajúc komerčné uplat- nenie. Hlboké učenie umožnuje systémom s jedným trénovacím objektívom riešiť komplikované úlohy cez vytváranie komplexných hierarchických reprezentácií. Ti- eto reprezentácie je však náročné interpretovať. V tejto práci skúmame možnosti interpretovateľnosti vizualizácií attention komponent a beam search dekódovania na úlohách image captioningu a multimodálneho prekladu a za týmto účelom vyvýjame softvérovú aplikáciu - Macaque, ktorá môže bežať ako lokálne, alebo ako online služba. Okrem toho predkladáme novú formulácie attention modulu, ktorú nazývame scaled general attention. Experimentálne porovnávame scaled general attention s ďalšími bežnými attention funkciami na štyroch rôznych ar- chitektúrach, vychádzajúcich z encoder-decoder frameworku na...
Title: Deep Learning and Visualization of Models for Image Captioning and Multimodal Translation Author: Samuel Michalik Institute: Institute of Formal and Applied Linguistics Supervisor: Mgr. Jindřich Helcl, Institute of Formal and Applied Linguistics Abstract: In recent years, the machine learning paradigm known as deep learning has proven to be well suited for the exploitation of modern parallel hardware and large datasets, helping to advance the frontier of research in many fields of arti- ficial intelligence and finding succesfull commercial applications. Deep learning allows end-to-end trainable systems to tackle difficult tasks by building complex hierarchical representations. However, these internal representations often avoid easy interpretation. We explore the possibilities of interpretable visualizations of attention components and beam search decoding at the task of image captioning and multimodal translation and build an application - Macaque, that can be run as an online service, to meet this end. Furthermore, we propose a novel attention function formulation, called scaled general attention. We experimentally evalu- ate scaled general attention along common attention functions on four different model architectures based on the encoder-decoder framework at the tasks of im- age captioning and...