Artificial Generals Intelligence: Mastering Generals Using Reinforcement Learning
Prostředí a umělá inteligence pro hru "Generals.io"
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/202815Identifikátory
SIS: 273505
Kolekce
- Kvalifikační práce [11987]
Autor
Vedoucí práce
Oponent práce
Dingle, Adam
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Umělá inteligence
Katedra / ústav / klinika
Katedra aplikované matematiky
Datum obhajoby
8. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
teorie her|reinforcement learning|umela inteligenceKlíčová slova (anglicky)
game theory|reinforcement learning|artificial intelligenceV této práci představujeme nového vysoce výkonného agenta pro strategickou hru v reálném čase Generals.io, který se konzistentně umisťuje mezi nejlepšími hráči - konkrétně v top 0,003% online žebříčku 1v1. Jeho úspěch je založen na dvou klíčových inovacích. První z nich je zcela nové herní prostředí, navržené jako přístupný benchmark. Efek- tivně kombinuje strategickou hloubku s nízkou výpočetní náročností, čímž výrazně snižuje vstupní bariéru pro další výzkum v oblasti reinforcement learning. Druhým klíčovým prvkem je pokročilá metodika tréninku. Ta začíná klonováním chování expertů, čímž agent získá silnou výchozí strategii. Ta je následně zdokonalována ve vícestupňovém procesu, kdy agent hraje sám proti sobě (self-play). Problém řídkých odměn je zde řešen pomocí tvarování odměn na základě potenciálu, což agentovi poskytuje silný a konzistentní signál pro učení. Výsledný agent, trénovaný na jediné GPU, se díky tomu nejen řadí mezi 25 nejlepších lidských hráčů, ale v přímých soubojích poráží i dosud nejlepšího známého bota, Human.exe.
We present a new state-of-the-art agent for the real-time strategy game Generals.io that achieves top-level performance, consistently ranking in the top 0.003% of players on the online 1v1 ladder. The agent's success is built upon two key contributions. First, this work introduces a novel environment for Generals.io, de- signed as an accessible benchmark that balances strategic depth with computational efficiency. This provides a rich domain for ex- perimentation while significantly lowering the barrier to entry for reinforcement learning research. Second, the thesis details the agent's advanced training pipeline, which begins with behavior cloning on a curated dataset of expert replays to establish a strong initial policy. This policy is then refined through a multi-stage self-play process, where potential-based reward shaping provides a dense and consistent learning signal to overcome the challenge of sparse rewards. Trained on a single GPU, the final agent not only places among the top 25 human players but also surpasses the previous best-known bot, Human.exe, in head-to-head matches.
