Deep learning and visualization of models for image captioning and multimodal translation

Michalik, Samuel

Hluboké učení a vizualizace modelů pro generování popisků obrázků a multimodální překlad

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (151.8Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/119374

Identifikátory

SIS: 205540

Oponent práce

Rosa, Rudolf

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Obecná informatika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

7. 7. 2020

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Velmi dobře

Klíčová slova (česky)

hluboké učení, vizualizace, multimodální překlad, generování popisků obrázků

Klíčová slova (anglicky)

deep learning, visualization, multimodal translation, image captioning

Název práce: Hluboké Učení a Vizualizace Modelů pro Generování Popisků Obrázků a Multimodální Překlad Autor: Samuel Michalik Ústav: Ústav Formální a Aplikované Lingvistiky Vedoucí bakalářské práce: Mgr. Jindřich Helcl, Ústav Formální a Aplikované Lingvistiky Abstrakt: V posledných rokoch sa paradigma strojového učenia, nazývané hlboké učenie, ukázalo, ako vhodné pre exploitáciu moderného paralelného hardvéru a veľkých datasetov, pomáhajúc tak posunúť vpred hranicu súčasného výzkumu v mnohých odvetviach umelej inteligencie a zároveň nachádzajúc komerčné uplat- nenie. Hlboké učenie umožnuje systémom s jedným trénovacím objektívom riešiť komplikované úlohy cez vytváranie komplexných hierarchických reprezentácií. Ti- eto reprezentácie je však náročné interpretovať. V tejto práci skúmame možnosti interpretovateľnosti vizualizácií attention komponent a beam search dekódovania na úlohách image captioningu a multimodálneho prekladu a za týmto účelom vyvýjame softvérovú aplikáciu - Macaque, ktorá môže bežať ako lokálne, alebo ako online služba. Okrem toho predkladáme novú formulácie attention modulu, ktorú nazývame scaled general attention. Experimentálne porovnávame scaled general attention s ďalšími bežnými attention funkciami na štyroch rôznych ar- chitektúrach, vychádzajúcich z encoder-decoder frameworku na...

Abstrakt (anglicky)

Title: Deep Learning and Visualization of Models for Image Captioning and Multimodal Translation Author: Samuel Michalik Institute: Institute of Formal and Applied Linguistics Supervisor: Mgr. Jindřich Helcl, Institute of Formal and Applied Linguistics Abstract: In recent years, the machine learning paradigm known as deep learning has proven to be well suited for the exploitation of modern parallel hardware and large datasets, helping to advance the frontier of research in many fields of arti- ficial intelligence and finding succesfull commercial applications. Deep learning allows end-to-end trainable systems to tackle difficult tasks by building complex hierarchical representations. However, these internal representations often avoid easy interpretation. We explore the possibilities of interpretable visualizations of attention components and beam search decoding at the task of image captioning and multimodal translation and build an application - Macaque, that can be run as an online service, to meet this end. Furthermore, we propose a novel attention function formulation, called scaled general attention. We experimentally evalu- ate scaled general attention along common attention functions on four different model architectures based on the encoder-decoder framework at the tasks of im- age captioning and...

Citace dokumentu

Metadata

Zobrazit celý záznam