dc.contributor.advisor | Neruda, Roman | |
dc.creator | Lorenc, Matyáš | |
dc.date.accessioned | 2024-04-08T09:49:07Z | |
dc.date.available | 2024-04-08T09:49:07Z | |
dc.date.issued | 2024 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/188488 | |
dc.description.abstract | We explore the capability of evolution strategies to train a transformer architecture in the reinforcement learning setting. We perform experiments using OpenAI's highly parallelizable evolution strategy and its derivatives utilizing novelty and quality-diversity searches to train Decision Transformer in Humanoid locomotion environment, testing the ability of these black-box optimization techniques to train even such relatively large (com- pared to the previously tested in the literature) and complicated (using a self-attention in addition to fully connected layers) models. The tested algorithms proved to be, in gen- eral, capable of achieving strong results and managed to obtain high-performing agents both from scratch (randomly initialized model) and from a pretrained model. 1 | en_US |
dc.description.abstract | Cílem práce je prozkoumat schopnost evolučních strategií trénovat architektury trans- formerů v prostředí zpětnovazebního učení. Provedeme experimenty s využitím vysoce paralelizovatelného algoritmu OpenAI-ES a dvou jeho variant využívajících konceptů no- velty a quality-diversity prohledávání k trénování architektury Decision Transformeru v prostředí MuJoCo Humanoida a otestujeme tak schopnost těchto black-box optimalizač- ních technik trénovat i takto relativně velké (ve srovnání s dříve testovanými) a kom- plikované modely (využívajících self-attention vedle klasických plně propojených vrstev). Testované algoritmy se v našich experimentech ukázaly obecně jako schopné dosahovat silných výsledků a dokázaly vyvinout vysoce výkonné agenty - a to jak z náhodně ini- cializovaného modelu, tak z předtrénovaného modelu. 1 | cs_CZ |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | Evoluční strategie|Transformery|Optimalizace policy|Novelty | cs_CZ |
dc.subject | Evolution strategies|Tranformers|Policy optimization|Novelty | en_US |
dc.title | Evolution strategies for policy optimization in transformers | en_US |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2024 | |
dcterms.dateAccepted | 2024-02-13 | |
dc.description.department | Department of Theoretical Computer Science and Mathematical Logic | en_US |
dc.description.department | Katedra teoretické informatiky a matematické logiky | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 258206 | |
dc.title.translated | Evoluční strategie pro optimalizaci policy v transformerech | cs_CZ |
dc.contributor.referee | Pilát, Martin | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Computer Science - Artificial Intelligence | en_US |
thesis.degree.discipline | Informatika - Umělá inteligence | cs_CZ |
thesis.degree.program | Computer Science - Artificial Intelligence | en_US |
thesis.degree.program | Informatika - Umělá inteligence | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Katedra teoretické informatiky a matematické logiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Department of Theoretical Computer Science and Mathematical Logic | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Informatika - Umělá inteligence | cs_CZ |
uk.degree-discipline.en | Computer Science - Artificial Intelligence | en_US |
uk.degree-program.cs | Informatika - Umělá inteligence | cs_CZ |
uk.degree-program.en | Computer Science - Artificial Intelligence | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Cílem práce je prozkoumat schopnost evolučních strategií trénovat architektury trans- formerů v prostředí zpětnovazebního učení. Provedeme experimenty s využitím vysoce paralelizovatelného algoritmu OpenAI-ES a dvou jeho variant využívajících konceptů no- velty a quality-diversity prohledávání k trénování architektury Decision Transformeru v prostředí MuJoCo Humanoida a otestujeme tak schopnost těchto black-box optimalizač- ních technik trénovat i takto relativně velké (ve srovnání s dříve testovanými) a kom- plikované modely (využívajících self-attention vedle klasických plně propojených vrstev). Testované algoritmy se v našich experimentech ukázaly obecně jako schopné dosahovat silných výsledků a dokázaly vyvinout vysoce výkonné agenty - a to jak z náhodně ini- cializovaného modelu, tak z předtrénovaného modelu. 1 | cs_CZ |
uk.abstract.en | We explore the capability of evolution strategies to train a transformer architecture in the reinforcement learning setting. We perform experiments using OpenAI's highly parallelizable evolution strategy and its derivatives utilizing novelty and quality-diversity searches to train Decision Transformer in Humanoid locomotion environment, testing the ability of these black-box optimization techniques to train even such relatively large (com- pared to the previously tested in the literature) and complicated (using a self-attention in addition to fully connected layers) models. The tested algorithms proved to be, in gen- eral, capable of achieving strong results and managed to obtain high-performing agents both from scratch (randomly initialized model) and from a pretrained model. 1 | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra teoretické informatiky a matematické logiky | cs_CZ |
thesis.grade.code | 1 | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |