Zobrazit minimální záznam

Schopnosti učení v transformerových neuronových sítích
dc.contributor.advisorBojar, Ondřej
dc.creatorVariš, Dušan
dc.date.accessioned2024-04-08T10:48:52Z
dc.date.available2024-04-08T10:48:52Z
dc.date.issued2023
dc.identifier.urihttp://hdl.handle.net/20.500.11956/188234
dc.description.abstractTitle: Learning Capabilities of the Transformer Neural Networks Author: Dušan Variš Department: Institute of Formal and Applied Linguistics Supervisor: doc. RNDr. Ondřej Bojar, Ph.D., Institute of Formal and Applied Linguistics Abstract: Although the contemporary neural networks, inspired by biological neurons, were able to reach human-like performance on many tasks in recent years, their optimiza- tion (learning) process is still very far from the one observed in humans. This thesis investigates various aspects of learning in the current state-of-the-art Transformer neural networks, the dominant architecture in the current neural language process- ing. Firstly, we measure the level of generalization in Transformers using several probing experiments based on the idea of adversarial evaluation. Secondly, we ex- plore their potential for incremental learning when combined with regularization using the elastic weight consolidation approach. Lastly, we propose a modular ex- tension of the existing Transformer architecture enabling subnetwork selection con- ditioned on the intermediate hidden layer outputs and analyze the attributes of this network modularization. We investigate our hypotheses mainly within the scope of neural machine translation and multilingual translation showing the limitations of the...en_US
dc.description.abstractNázev práce: Schopnosti učení neuronových sítí Transformer Autor: Dušan Variš Katedra: Ústav formální a aplikované lingvistiky Vedoucí práce: doc. RNDr. Ondřej Bojar, Ph.D., Ústav formální a aplikované lingvistiky Abstrakt: Přestože současné neuronové sítě, inspirované biologickými neurony, byly v posled- ních letech schopny dosáhnout lidské úrovně na mnoha úlohách, proces jejich op- timalizace (učení) je stále velmi odlišný od procesů pozorovaných u lidí. Tato práce zkoumá různé aspekty učení současných neuronových sítí Transformer, převláda- jící architektury pro zpracování přirozeného jazyka. V první části zkoumáme úro- veň generalizace v Transformerech pomocí analytických experimentů založených na myšlence adversariální evaluace. V části druhé pak zkoumáme jejich potenciál pro kontinuální učení s použitím regularizace založené na elastické konsolidaci vah. V závěru práce navrhujeme modulární rozšíření stávající sítě Transformer umožňující výběr podsítí podmíněný zpracovaným vstupem spolu s demonstrací vlastností této síťové modularizace. Naše hypotézy testujeme především v kontextu neuronového strojového překladu a vícejazyčného překladu, přičemž naměřené výsledky odhalují limity původního Transformeru i metody regularizace pomocí elastické konsolidace vah. Navíc prezentujeme slibné výsledky navržené...cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectneuronový strojový překlad|katastrofické zapomínání|modulární neuronové sítě|navazující učení|generalizacecs_CZ
dc.subjectneural machine translation|catastrophic forgetting|modular neural networks|incremental learning|generalizationen_US
dc.titleLearning capabilities in Transformer Neural Networksen_US
dc.typedizertační prácecs_CZ
dcterms.created2023
dcterms.dateAccepted2023-03-24
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId177547
dc.title.translatedSchopnosti učení v transformerových neuronových sítíchcs_CZ
dc.contributor.refereeSennrich, Rico
dc.contributor.refereeDušek, Ondřej
thesis.degree.namePh.D.
thesis.degree.leveldoktorskécs_CZ
thesis.degree.disciplineComputational linguisticsen_US
thesis.degree.disciplineMatematická lingvistikacs_CZ
thesis.degree.programComputational linguisticsen_US
thesis.degree.programMatematická lingvistikacs_CZ
uk.thesis.typedizertační prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csMatematická lingvistikacs_CZ
uk.degree-discipline.enComputational linguisticsen_US
uk.degree-program.csMatematická lingvistikacs_CZ
uk.degree-program.enComputational linguisticsen_US
thesis.grade.csProspěl/acs_CZ
thesis.grade.enPassen_US
uk.abstract.csNázev práce: Schopnosti učení neuronových sítí Transformer Autor: Dušan Variš Katedra: Ústav formální a aplikované lingvistiky Vedoucí práce: doc. RNDr. Ondřej Bojar, Ph.D., Ústav formální a aplikované lingvistiky Abstrakt: Přestože současné neuronové sítě, inspirované biologickými neurony, byly v posled- ních letech schopny dosáhnout lidské úrovně na mnoha úlohách, proces jejich op- timalizace (učení) je stále velmi odlišný od procesů pozorovaných u lidí. Tato práce zkoumá různé aspekty učení současných neuronových sítí Transformer, převláda- jící architektury pro zpracování přirozeného jazyka. V první části zkoumáme úro- veň generalizace v Transformerech pomocí analytických experimentů založených na myšlence adversariální evaluace. V části druhé pak zkoumáme jejich potenciál pro kontinuální učení s použitím regularizace založené na elastické konsolidaci vah. V závěru práce navrhujeme modulární rozšíření stávající sítě Transformer umožňující výběr podsítí podmíněný zpracovaným vstupem spolu s demonstrací vlastností této síťové modularizace. Naše hypotézy testujeme především v kontextu neuronového strojového překladu a vícejazyčného překladu, přičemž naměřené výsledky odhalují limity původního Transformeru i metody regularizace pomocí elastické konsolidace vah. Navíc prezentujeme slibné výsledky navržené...cs_CZ
uk.abstract.enTitle: Learning Capabilities of the Transformer Neural Networks Author: Dušan Variš Department: Institute of Formal and Applied Linguistics Supervisor: doc. RNDr. Ondřej Bojar, Ph.D., Institute of Formal and Applied Linguistics Abstract: Although the contemporary neural networks, inspired by biological neurons, were able to reach human-like performance on many tasks in recent years, their optimiza- tion (learning) process is still very far from the one observed in humans. This thesis investigates various aspects of learning in the current state-of-the-art Transformer neural networks, the dominant architecture in the current neural language process- ing. Firstly, we measure the level of generalization in Transformers using several probing experiments based on the idea of adversarial evaluation. Secondly, we ex- plore their potential for incremental learning when combined with regularization using the elastic weight consolidation approach. Lastly, we propose a modular ex- tension of the existing Transformer architecture enabling subnetwork selection con- ditioned on the intermediate hidden layer outputs and analyze the attributes of this network modularization. We investigate our hypotheses mainly within the scope of neural machine translation and multilingual translation showing the limitations of the...en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.codeP
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV