Evolution strategies for policy optimization in transformers

Lorenc, Matyáš

Evoluční strategie pro optimalizaci policy v transformerech

dc.contributor.advisor	Neruda, Roman
dc.creator	Lorenc, Matyáš
dc.date.accessioned	2024-04-08T09:49:07Z
dc.date.available	2024-04-08T09:49:07Z
dc.date.issued	2024
dc.identifier.uri	http://hdl.handle.net/20.500.11956/188488
dc.description.abstract	We explore the capability of evolution strategies to train a transformer architecture in the reinforcement learning setting. We perform experiments using OpenAI's highly parallelizable evolution strategy and its derivatives utilizing novelty and quality-diversity searches to train Decision Transformer in Humanoid locomotion environment, testing the ability of these black-box optimization techniques to train even such relatively large (com- pared to the previously tested in the literature) and complicated (using a self-attention in addition to fully connected layers) models. The tested algorithms proved to be, in gen- eral, capable of achieving strong results and managed to obtain high-performing agents both from scratch (randomly initialized model) and from a pretrained model. 1	en_US
dc.description.abstract	Cílem práce je prozkoumat schopnost evolučních strategií trénovat architektury trans- formerů v prostředí zpětnovazebního učení. Provedeme experimenty s využitím vysoce paralelizovatelného algoritmu OpenAI-ES a dvou jeho variant využívajících konceptů no- velty a quality-diversity prohledávání k trénování architektury Decision Transformeru v prostředí MuJoCo Humanoida a otestujeme tak schopnost těchto black-box optimalizač- ních technik trénovat i takto relativně velké (ve srovnání s dříve testovanými) a kom- plikované modely (využívajících self-attention vedle klasických plně propojených vrstev). Testované algoritmy se v našich experimentech ukázaly obecně jako schopné dosahovat silných výsledků a dokázaly vyvinout vysoce výkonné agenty - a to jak z náhodně ini- cializovaného modelu, tak z předtrénovaného modelu. 1	cs_CZ
dc.language	English	cs_CZ
dc.language.iso	en_US
dc.publisher	Univerzita Karlova, Matematicko-fyzikální fakulta	cs_CZ
dc.subject	Evoluční strategie\|Transformery\|Optimalizace policy\|Novelty	cs_CZ
dc.subject	Evolution strategies\|Tranformers\|Policy optimization\|Novelty	en_US
dc.title	Evolution strategies for policy optimization in transformers	en_US
dc.type	diplomová práce	cs_CZ
dcterms.created	2024
dcterms.dateAccepted	2024-02-13
dc.description.department	Department of Theoretical Computer Science and Mathematical Logic	en_US
dc.description.department	Katedra teoretické informatiky a matematické logiky	cs_CZ
dc.description.faculty	Faculty of Mathematics and Physics	en_US
dc.description.faculty	Matematicko-fyzikální fakulta	cs_CZ
dc.identifier.repId	258206
dc.title.translated	Evoluční strategie pro optimalizaci policy v transformerech	cs_CZ
dc.contributor.referee	Pilát, Martin
thesis.degree.name	Mgr.
thesis.degree.level	navazující magisterské	cs_CZ
thesis.degree.discipline	Computer Science - Artificial Intelligence	en_US
thesis.degree.discipline	Informatika - Umělá inteligence	cs_CZ
thesis.degree.program	Computer Science - Artificial Intelligence	en_US
thesis.degree.program	Informatika - Umělá inteligence	cs_CZ
uk.thesis.type	diplomová práce	cs_CZ
uk.taxonomy.organization-cs	Matematicko-fyzikální fakulta::Katedra teoretické informatiky a matematické logiky	cs_CZ
uk.taxonomy.organization-en	Faculty of Mathematics and Physics::Department of Theoretical Computer Science and Mathematical Logic	en_US
uk.faculty-name.cs	Matematicko-fyzikální fakulta	cs_CZ
uk.faculty-name.en	Faculty of Mathematics and Physics	en_US
uk.faculty-abbr.cs	MFF	cs_CZ
uk.degree-discipline.cs	Informatika - Umělá inteligence	cs_CZ
uk.degree-discipline.en	Computer Science - Artificial Intelligence	en_US
uk.degree-program.cs	Informatika - Umělá inteligence	cs_CZ
uk.degree-program.en	Computer Science - Artificial Intelligence	en_US
thesis.grade.cs	Výborně	cs_CZ
thesis.grade.en	Excellent	en_US
uk.abstract.cs	Cílem práce je prozkoumat schopnost evolučních strategií trénovat architektury trans- formerů v prostředí zpětnovazebního učení. Provedeme experimenty s využitím vysoce paralelizovatelného algoritmu OpenAI-ES a dvou jeho variant využívajících konceptů no- velty a quality-diversity prohledávání k trénování architektury Decision Transformeru v prostředí MuJoCo Humanoida a otestujeme tak schopnost těchto black-box optimalizač- ních technik trénovat i takto relativně velké (ve srovnání s dříve testovanými) a kom- plikované modely (využívajících self-attention vedle klasických plně propojených vrstev). Testované algoritmy se v našich experimentech ukázaly obecně jako schopné dosahovat silných výsledků a dokázaly vyvinout vysoce výkonné agenty - a to jak z náhodně ini- cializovaného modelu, tak z předtrénovaného modelu. 1	cs_CZ
uk.abstract.en	We explore the capability of evolution strategies to train a transformer architecture in the reinforcement learning setting. We perform experiments using OpenAI's highly parallelizable evolution strategy and its derivatives utilizing novelty and quality-diversity searches to train Decision Transformer in Humanoid locomotion environment, testing the ability of these black-box optimization techniques to train even such relatively large (com- pared to the previously tested in the literature) and complicated (using a self-attention in addition to fully connected layers) models. The tested algorithms proved to be, in gen- eral, capable of achieving strong results and managed to obtain high-performing agents both from scratch (randomly initialized model) and from a pretrained model. 1	en_US
uk.file-availability	V
uk.grantor	Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra teoretické informatiky a matematické logiky	cs_CZ
thesis.grade.code	1
uk.publication-place	Praha	cs_CZ
uk.thesis.defenceStatus	O