Show simple item record

Hluboké učení a vizualizace modelů pro generování popisků obrázků a multimodální překlad
dc.contributor.advisorHelcl, Jindřich
dc.creatorMichalik, Samuel
dc.date.accessioned2020-07-28T09:48:15Z
dc.date.available2020-07-28T09:48:15Z
dc.date.issued2020
dc.identifier.urihttp://hdl.handle.net/20.500.11956/119374
dc.description.abstractTitle: Deep Learning and Visualization of Models for Image Captioning and Multimodal Translation Author: Samuel Michalik Institute: Institute of Formal and Applied Linguistics Supervisor: Mgr. Jindřich Helcl, Institute of Formal and Applied Linguistics Abstract: In recent years, the machine learning paradigm known as deep learning has proven to be well suited for the exploitation of modern parallel hardware and large datasets, helping to advance the frontier of research in many fields of arti- ficial intelligence and finding succesfull commercial applications. Deep learning allows end-to-end trainable systems to tackle difficult tasks by building complex hierarchical representations. However, these internal representations often avoid easy interpretation. We explore the possibilities of interpretable visualizations of attention components and beam search decoding at the task of image captioning and multimodal translation and build an application - Macaque, that can be run as an online service, to meet this end. Furthermore, we propose a novel attention function formulation, called scaled general attention. We experimentally evalu- ate scaled general attention along common attention functions on four different model architectures based on the encoder-decoder framework at the tasks of im- age captioning and...en_US
dc.description.abstractNázev práce: Hluboké Učení a Vizualizace Modelů pro Generování Popisků Obrázků a Multimodální Překlad Autor: Samuel Michalik Ústav: Ústav Formální a Aplikované Lingvistiky Vedoucí bakalářské práce: Mgr. Jindřich Helcl, Ústav Formální a Aplikované Lingvistiky Abstrakt: V posledných rokoch sa paradigma strojového učenia, nazývané hlboké učenie, ukázalo, ako vhodné pre exploitáciu moderného paralelného hardvéru a veľkých datasetov, pomáhajúc tak posunúť vpred hranicu súčasného výzkumu v mnohých odvetviach umelej inteligencie a zároveň nachádzajúc komerčné uplat- nenie. Hlboké učenie umožnuje systémom s jedným trénovacím objektívom riešiť komplikované úlohy cez vytváranie komplexných hierarchických reprezentácií. Ti- eto reprezentácie je však náročné interpretovať. V tejto práci skúmame možnosti interpretovateľnosti vizualizácií attention komponent a beam search dekódovania na úlohách image captioningu a multimodálneho prekladu a za týmto účelom vyvýjame softvérovú aplikáciu - Macaque, ktorá môže bežať ako lokálne, alebo ako online služba. Okrem toho predkladáme novú formulácie attention modulu, ktorú nazývame scaled general attention. Experimentálne porovnávame scaled general attention s ďalšími bežnými attention funkciami na štyroch rôznych ar- chitektúrach, vychádzajúcich z encoder-decoder frameworku na...cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectdeep learningen_US
dc.subjectvisualizationen_US
dc.subjectmultimodal translationen_US
dc.subjectimage captioningen_US
dc.subjecthluboké učenícs_CZ
dc.subjectvizualizacecs_CZ
dc.subjectmultimodální překladcs_CZ
dc.subjectgenerování popisků obrázkůcs_CZ
dc.titleDeep learning and visualization of models for image captioning and multimodal translationen_US
dc.typebakalářská prácecs_CZ
dcterms.created2020
dcterms.dateAccepted2020-07-07
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId205540
dc.title.translatedHluboké učení a vizualizace modelů pro generování popisků obrázků a multimodální překladcs_CZ
dc.contributor.refereeRosa, Rudolf
thesis.degree.nameBc.
thesis.degree.levelbakalářskécs_CZ
thesis.degree.disciplineObecná informatikacs_CZ
thesis.degree.disciplineGeneral Computer Scienceen_US
thesis.degree.programComputer Scienceen_US
thesis.degree.programInformatikacs_CZ
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csObecná informatikacs_CZ
uk.degree-discipline.enGeneral Computer Scienceen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVelmi dobřecs_CZ
thesis.grade.enVery gooden_US
uk.abstract.csNázev práce: Hluboké Učení a Vizualizace Modelů pro Generování Popisků Obrázků a Multimodální Překlad Autor: Samuel Michalik Ústav: Ústav Formální a Aplikované Lingvistiky Vedoucí bakalářské práce: Mgr. Jindřich Helcl, Ústav Formální a Aplikované Lingvistiky Abstrakt: V posledných rokoch sa paradigma strojového učenia, nazývané hlboké učenie, ukázalo, ako vhodné pre exploitáciu moderného paralelného hardvéru a veľkých datasetov, pomáhajúc tak posunúť vpred hranicu súčasného výzkumu v mnohých odvetviach umelej inteligencie a zároveň nachádzajúc komerčné uplat- nenie. Hlboké učenie umožnuje systémom s jedným trénovacím objektívom riešiť komplikované úlohy cez vytváranie komplexných hierarchických reprezentácií. Ti- eto reprezentácie je však náročné interpretovať. V tejto práci skúmame možnosti interpretovateľnosti vizualizácií attention komponent a beam search dekódovania na úlohách image captioningu a multimodálneho prekladu a za týmto účelom vyvýjame softvérovú aplikáciu - Macaque, ktorá môže bežať ako lokálne, alebo ako online služba. Okrem toho predkladáme novú formulácie attention modulu, ktorú nazývame scaled general attention. Experimentálne porovnávame scaled general attention s ďalšími bežnými attention funkciami na štyroch rôznych ar- chitektúrach, vychádzajúcich z encoder-decoder frameworku na...cs_CZ
uk.abstract.enTitle: Deep Learning and Visualization of Models for Image Captioning and Multimodal Translation Author: Samuel Michalik Institute: Institute of Formal and Applied Linguistics Supervisor: Mgr. Jindřich Helcl, Institute of Formal and Applied Linguistics Abstract: In recent years, the machine learning paradigm known as deep learning has proven to be well suited for the exploitation of modern parallel hardware and large datasets, helping to advance the frontier of research in many fields of arti- ficial intelligence and finding succesfull commercial applications. Deep learning allows end-to-end trainable systems to tackle difficult tasks by building complex hierarchical representations. However, these internal representations often avoid easy interpretation. We explore the possibilities of interpretable visualizations of attention components and beam search decoding at the task of image captioning and multimodal translation and build an application - Macaque, that can be run as an online service, to meet this end. Furthermore, we propose a novel attention function formulation, called scaled general attention. We experimentally evalu- ate scaled general attention along common attention functions on four different model architectures based on the encoder-decoder framework at the tasks of im- age captioning and...en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.code2
uk.publication-placePrahacs_CZ


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV