Cooperative Multi-Agent Reinforcement Learning

Uhlík, Jan

Zpětnovazební učení pro kooperaci více agentů

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (348.0Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/127431

Identifikátory

SIS: 233336

Oponent práce

Straka, Milan

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Umělá inteligence

Katedra / ústav / klinika

Katedra teoretické informatiky a matematické logiky

Datum obhajoby

22. 6. 2021

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

Zpětnovazební učení|Multiagentní systémy|Hluboké učení

Klíčová slova (anglicky)

Reinforcement Learning|Multi-Agent Systems|Deel Learning

Zpětnovazební učení zažívá v posledních letech výrazný rozmach díky novým technikám založených na hlubokém učení. Zajímavou oblastí výzkumu, na kterou se v posledních letech zaměřila řada od- borných publikací, je využití zpětnovazebního učení v prostředích s více agenty. V této práci nej- prve formálně zavádíme Multi-Agentní Zpětnovazební Učení (MARL). Následně stručně popisujeme nejdůležitější a nejúspěšnější doposud známé algoritmy pro prostředí jak s jedním, tak s více agenty. Naši pozornost zaměřujeme zejména na skupinu algoritmů známých pod pojmem Actor-Critic s centra- lizovaným tréninkem a decentralizovaným vykonáváním akcí. Dále přinášíme nový algoritmus MATD3- FORK, jenž je kombinací dvou úspěšných algoritmů MATD3 a TD3-FORK. Na závěr provádíme obsáhlé srovnávací testy mezi jednotlivými algoritmy pomocí naší sjednocené implementace.

Abstrakt (anglicky)

Deep Reinforcement Learning has achieved a plenty of breakthroughs in the past decade. Motivated by these successes, many publications extend the most prosperous algorithms to multi-agent systems. In this work, we firstly build solid theoretical foundations of Multi-Agent Reinforcement Learning (MARL), along with unified notations. Thereafter, we give a brief review of the most influential algorithms for Single-Agent and Multi-Agent RL. Our attention is focused mainly on Actor-Critic architectures with centralized training and decentralized execution. We propose a new model architec- ture called MATD3-FORK, which is a combination of MATD3 and TD3-FORK. Finally, we provide thorough comparative experiments of these algorithms on various tasks with unified implementation.

Citace dokumentu

Metadata

Zobrazit celý záznam