Artificial Generals Intelligence: Mastering Generals Using Reinforcement Learning
Prostředí a umělá inteligence pro hru "Generals.io"
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/202815Identifiers
Study Information System: 273505
Collections
- Kvalifikační práce [11975]
Author
Advisor
Referee
Dingle, Adam
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Artificial Intelligence
Department
Department of Applied Mathematics
Date of defense
8. 9. 2025
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
teorie her|reinforcement learning|umela inteligenceKeywords (English)
game theory|reinforcement learning|artificial intelligenceV této práci představujeme nového vysoce výkonného agenta pro strategickou hru v reálném čase Generals.io, který se konzistentně umisťuje mezi nejlepšími hráči - konkrétně v top 0,003% online žebříčku 1v1. Jeho úspěch je založen na dvou klíčových inovacích. První z nich je zcela nové herní prostředí, navržené jako přístupný benchmark. Efek- tivně kombinuje strategickou hloubku s nízkou výpočetní náročností, čímž výrazně snižuje vstupní bariéru pro další výzkum v oblasti reinforcement learning. Druhým klíčovým prvkem je pokročilá metodika tréninku. Ta začíná klonováním chování expertů, čímž agent získá silnou výchozí strategii. Ta je následně zdokonalována ve vícestupňovém procesu, kdy agent hraje sám proti sobě (self-play). Problém řídkých odměn je zde řešen pomocí tvarování odměn na základě potenciálu, což agentovi poskytuje silný a konzistentní signál pro učení. Výsledný agent, trénovaný na jediné GPU, se díky tomu nejen řadí mezi 25 nejlepších lidských hráčů, ale v přímých soubojích poráží i dosud nejlepšího známého bota, Human.exe.
We present a new state-of-the-art agent for the real-time strategy game Generals.io that achieves top-level performance, consistently ranking in the top 0.003% of players on the online 1v1 ladder. The agent's success is built upon two key contributions. First, this work introduces a novel environment for Generals.io, de- signed as an accessible benchmark that balances strategic depth with computational efficiency. This provides a rich domain for ex- perimentation while significantly lowering the barrier to entry for reinforcement learning research. Second, the thesis details the agent's advanced training pipeline, which begins with behavior cloning on a curated dataset of expert replays to establish a strong initial policy. This policy is then refined through a multi-stage self-play process, where potential-based reward shaping provides a dense and consistent learning signal to overcome the challenge of sparse rewards. Trained on a single GPU, the final agent not only places among the top 25 human players but also surpasses the previous best-known bot, Human.exe, in head-to-head matches.
