General Game Playing and Deepstack
Hraní her a Deepstack
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/110171Identifiers
Study Information System: 197947
Collections
- Kvalifikační práce [10690]
Author
Advisor
Referee
Majerech, Vladan
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Artificial Intelligence
Department
Department of Software and Computer Science Education
Date of defense
16. 9. 2019
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
obecné hraní her, hry s neúplnou informací, counterfactual regret minimization, continual resolvingKeywords (English)
general game playing, imperfect information games, counterfactual regret minimization, continual resolvingObecné hraní her je oblast umělé inteligence, která se zabývá vytvářením agentů schopných hrát hry z nějaké třídy. Pravidla se agenti dozví až před začátkem hry a tudíž nemohou být specializování na jednu hru. Deepstack byl první umělý agent, který porazil profesionální lidské hráče v heads-up no-limit Texas hold'em pokeru. Ačkoliv byl vytvořen přímo pro poker, tak v jeho jádru je obecný algoritmus na hraní her dvou hráčů s nulovým součtem a neúplnou informací - continual resolving. V této práci představíme obecnou verzi continual resolvingu a porovnáme ji s Online Outcome Sampling Monte Carlo Counterfactual Regret Minimization v několika hrách.
General game playing is an area of artificial intelligence which focuses on creating agents capable of playing many games from some class. The agents receive the rules just before the match and therefore cannot be specialized for each game. Deepstack is the first artificial intelligence to beat professional human players in heads-up no-limit Texas hold'em poker. While it is specialized for poker, at its core is a general algorithm for playing two-player zero-sum games with imperfect information - continual resolving. In this thesis we introduce a general version of continual resolving and compare its performance against Online Outcome Sampling Monte Carlo Counterfactual Regret Minimization in several games.