Iterative Methods for First-Order Nash Equilibria in Zero-Sum Games
Iterativní metody pro Nashova ekvilibria prvního řádu v hrách s nulovým součtem
bachelor thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/192814Identifiers
Study Information System: 271219
Collections
- Kvalifikační práce [11242]
Author
Advisor
Consultant
Černý, Martin
Referee
Hartman, David
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science with specialisation in Artificial Intelligence
Department
Department of Applied Mathematics
Date of defense
5. 9. 2024
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
teorie her|Nashovo ekvilibrium|iterativní metodyKeywords (English)
game theory|Nash equlibrium|iterative methodsMnoho úloh ve strojovém učení lze považovat za hru dvou hráčů, kteří spolu sou- peří a jsou odměňováni tak, že součet skóre obou hráčů je vždy nula. Nicméně hledání známého konceptu, takzvané Nashovo ekvilibrium, může být velice náročné, a proto se vytvořil jednodušší koncept, zvaný Nashovo ekvilibrium prvního řádu. Nejdříve prozkou- máme některé vlastnosti Nashových ekvilibrií prvního řádu, a poté ukážeme algoritmus Regularized Nikaidô-Isoda Stochastic Gradient Descent, jehož cílem je hledat právě tato zjednodušená ekvilibria. Dále naimplementujeme deterministickou variantu tohoto algo- ritmu a dokážeme, že za určitých podmínek konverguje. Na konci pak tuto implementaci předvedeme na vybraných příkladech a porovnáme ho s dalším algoritmem, Stay-on-the- ridge.
Many machine learning tasks can be modeled as two players competing against each other in a way that the score both players receive sums to zero. However the well- known concept, the Nash equilibrium, can be challenging to find, so a more relaxed concept was created, the first-order Nash equilibrium. We examine some of its properties and then present an algorithm, Regularized Nikaidô-Isoda Stochastic Gradient Descent, which aims to find these simpler solutions. Moreover, we implement its deterministic variant, for which we prove that it converges under additional assumptions. Finally, we demonstrate the implementation on selected examples and compare it to another algorithm, Stay-on-the-ridge.