Artificial Generals Intelligence: Mastering Generals Using Reinforcement Learning

Straka, Matej

Prostředí a umělá inteligence pro hru "Generals.io"

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (407.9Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/202815

Identifikátory

SIS: 273505

Oponent práce

Dingle, Adam

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika - Umělá inteligence

Katedra / ústav / klinika

Katedra aplikované matematiky

Datum obhajoby

8. 9. 2025

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

teorie her|reinforcement learning|umela inteligence

Klíčová slova (anglicky)

game theory|reinforcement learning|artificial intelligence

V této práci představujeme nového vysoce výkonného agenta pro strategickou hru v reálném čase Generals.io, který se konzistentně umisťuje mezi nejlepšími hráči - konkrétně v top 0,003% online žebříčku 1v1. Jeho úspěch je založen na dvou klíčových inovacích. První z nich je zcela nové herní prostředí, navržené jako přístupný benchmark. Efek- tivně kombinuje strategickou hloubku s nízkou výpočetní náročností, čímž výrazně snižuje vstupní bariéru pro další výzkum v oblasti reinforcement learning. Druhým klíčovým prvkem je pokročilá metodika tréninku. Ta začíná klonováním chování expertů, čímž agent získá silnou výchozí strategii. Ta je následně zdokonalována ve vícestupňovém procesu, kdy agent hraje sám proti sobě (self-play). Problém řídkých odměn je zde řešen pomocí tvarování odměn na základě potenciálu, což agentovi poskytuje silný a konzistentní signál pro učení. Výsledný agent, trénovaný na jediné GPU, se díky tomu nejen řadí mezi 25 nejlepších lidských hráčů, ale v přímých soubojích poráží i dosud nejlepšího známého bota, Human.exe.

Abstrakt (anglicky)

We present a new state-of-the-art agent for the real-time strategy game Generals.io that achieves top-level performance, consistently ranking in the top 0.003% of players on the online 1v1 ladder. The agent's success is built upon two key contributions. First, this work introduces a novel environment for Generals.io, de- signed as an accessible benchmark that balances strategic depth with computational efficiency. This provides a rich domain for ex- perimentation while significantly lowering the barrier to entry for reinforcement learning research. Second, the thesis details the agent's advanced training pipeline, which begins with behavior cloning on a curated dataset of expert replays to establish a strong initial policy. This policy is then refined through a multi-stage self-play process, where potential-based reward shaping provides a dense and consistent learning signal to overcome the challenge of sparse rewards. Trained on a single GPU, the final agent not only places among the top 25 human players but also surpasses the previous best-known bot, Human.exe, in head-to-head matches.

Citace dokumentu

Metadata

Zobrazit celý záznam