Zobrazit minimální záznam

Evoluční strategie pro optimalizaci policy v transformerech
dc.contributor.advisorNeruda, Roman
dc.creatorLorenc, Matyáš
dc.date.accessioned2024-04-08T09:49:07Z
dc.date.available2024-04-08T09:49:07Z
dc.date.issued2024
dc.identifier.urihttp://hdl.handle.net/20.500.11956/188488
dc.description.abstractWe explore the capability of evolution strategies to train a transformer architecture in the reinforcement learning setting. We perform experiments using OpenAI's highly parallelizable evolution strategy and its derivatives utilizing novelty and quality-diversity searches to train Decision Transformer in Humanoid locomotion environment, testing the ability of these black-box optimization techniques to train even such relatively large (com- pared to the previously tested in the literature) and complicated (using a self-attention in addition to fully connected layers) models. The tested algorithms proved to be, in gen- eral, capable of achieving strong results and managed to obtain high-performing agents both from scratch (randomly initialized model) and from a pretrained model. 1en_US
dc.description.abstractCílem práce je prozkoumat schopnost evolučních strategií trénovat architektury trans- formerů v prostředí zpětnovazebního učení. Provedeme experimenty s využitím vysoce paralelizovatelného algoritmu OpenAI-ES a dvou jeho variant využívajících konceptů no- velty a quality-diversity prohledávání k trénování architektury Decision Transformeru v prostředí MuJoCo Humanoida a otestujeme tak schopnost těchto black-box optimalizač- ních technik trénovat i takto relativně velké (ve srovnání s dříve testovanými) a kom- plikované modely (využívajících self-attention vedle klasických plně propojených vrstev). Testované algoritmy se v našich experimentech ukázaly obecně jako schopné dosahovat silných výsledků a dokázaly vyvinout vysoce výkonné agenty - a to jak z náhodně ini- cializovaného modelu, tak z předtrénovaného modelu. 1cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectEvoluční strategie|Transformery|Optimalizace policy|Noveltycs_CZ
dc.subjectEvolution strategies|Tranformers|Policy optimization|Noveltyen_US
dc.titleEvolution strategies for policy optimization in transformersen_US
dc.typediplomová prácecs_CZ
dcterms.created2024
dcterms.dateAccepted2024-02-13
dc.description.departmentDepartment of Theoretical Computer Science and Mathematical Logicen_US
dc.description.departmentKatedra teoretické informatiky a matematické logikycs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId258206
dc.title.translatedEvoluční strategie pro optimalizaci policy v transformerechcs_CZ
dc.contributor.refereePilát, Martin
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineComputer Science - Artificial Intelligenceen_US
thesis.degree.disciplineInformatika - Umělá inteligencecs_CZ
thesis.degree.programComputer Science - Artificial Intelligenceen_US
thesis.degree.programInformatika - Umělá inteligencecs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Katedra teoretické informatiky a matematické logikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Department of Theoretical Computer Science and Mathematical Logicen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csInformatika - Umělá inteligencecs_CZ
uk.degree-discipline.enComputer Science - Artificial Intelligenceen_US
uk.degree-program.csInformatika - Umělá inteligencecs_CZ
uk.degree-program.enComputer Science - Artificial Intelligenceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csCílem práce je prozkoumat schopnost evolučních strategií trénovat architektury trans- formerů v prostředí zpětnovazebního učení. Provedeme experimenty s využitím vysoce paralelizovatelného algoritmu OpenAI-ES a dvou jeho variant využívajících konceptů no- velty a quality-diversity prohledávání k trénování architektury Decision Transformeru v prostředí MuJoCo Humanoida a otestujeme tak schopnost těchto black-box optimalizač- ních technik trénovat i takto relativně velké (ve srovnání s dříve testovanými) a kom- plikované modely (využívajících self-attention vedle klasických plně propojených vrstev). Testované algoritmy se v našich experimentech ukázaly obecně jako schopné dosahovat silných výsledků a dokázaly vyvinout vysoce výkonné agenty - a to jak z náhodně ini- cializovaného modelu, tak z předtrénovaného modelu. 1cs_CZ
uk.abstract.enWe explore the capability of evolution strategies to train a transformer architecture in the reinforcement learning setting. We perform experiments using OpenAI's highly parallelizable evolution strategy and its derivatives utilizing novelty and quality-diversity searches to train Decision Transformer in Humanoid locomotion environment, testing the ability of these black-box optimization techniques to train even such relatively large (com- pared to the previously tested in the literature) and complicated (using a self-attention in addition to fully connected layers) models. The tested algorithms proved to be, in gen- eral, capable of achieving strong results and managed to obtain high-performing agents both from scratch (randomly initialized model) and from a pretrained model. 1en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Katedra teoretické informatiky a matematické logikycs_CZ
thesis.grade.code1
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV