dc.contributor.advisor | Hladík, Milan | |
dc.creator | Schmid, Martin | |
dc.date.accessioned | 2022-07-25T14:33:39Z | |
dc.date.available | 2022-07-25T14:33:39Z | |
dc.date.issued | 2021 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/173905 | |
dc.description.abstract | From the very dawn of the field, search with value functions was a fun- damental concept of computer games research. Turing's chess algorithm from 1950 was able to think two moves ahead, and Shannon's work on chess from 1950 includes an extensive section on evaluation functions to be used within a search. Samuel's checkers program from 1959 already combines search and value functions that are learned through self-play and bootstrapping. TD-Gammon improves upon those ideas and uses neural networks to learn those complex value functions - only to be again used within search. The combination of decision-time search and value functions has been present in the remarkable milestones where computers bested their human counterparts in long standing challenging games - DeepBlue for Chess and AlphaGo for Go. Until recently, this powerful framework of search aided with (learned) value functions has been limited to perfect information games. As many interesting problems do not provide the agent perfect information of the environment, this was an unfortunate limitation. This thesis introduces the reader to sound search for imperfect information games. 1 | en_US |
dc.description.abstract | Od prvopočátku herních algoritmů byla kombinace hledání a ohodnocení budoucích stavů hry základním konceptem. Turingův šachový algoritmus z roku 1950 dokázal myslet dva kroky vpřed a Shannonova práce z roku 1950 obsahuje rozsáhlou část o způsobech ohodnocení stavů, které mají být použity při vyhledávání. Samuelův program pro hru dáma z roku 1959 již kombinuje vyhledávání a ohodnocení které se učí prostřednictvím selfp-play a bootstrap- pingu. TD-Gammon na tyto myšlenky navazuje a využívá neuronové sítě k osvojení těchto komplexních funkcí. Kombinace hledávání a hodnocení stavů byla přítomna v mnoha milnících, kde počítače překonaly své lidské protějšky - DeepBlue pro šachy a AlphaGo pro Go. Až donedávna byla tato kombinace omezena na hry s úplnou informací. Ale mnoho zajímavých problémů neposkytuje agentovi dokonalou informaci o prostředí. Tato práce uvádí čtenáře do metod umožňující hledání v hrách s neúplnou informací. 1 | cs_CZ |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | game theory|large extensive form games|Nash equilibrium|optimization | cs_CZ |
dc.subject | game theory|large extensive form games|Nash equilibrium|optimization | en_US |
dc.title | Search in Imperfect Information Games | en_US |
dc.type | dizertační práce | cs_CZ |
dcterms.created | 2021 | |
dcterms.dateAccepted | 2021-08-25 | |
dc.description.department | Department of Applied Mathematics | en_US |
dc.description.department | Katedra aplikované matematiky | cs_CZ |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 136127 | |
dc.title.translated | Hledání v hrách s neúplnou informací | cs_CZ |
dc.contributor.referee | Szepesvari, Csaba | |
dc.contributor.referee | Bošanský, Branislav | |
thesis.degree.name | Ph.D. | |
thesis.degree.level | doktorské | cs_CZ |
thesis.degree.discipline | Informatika - teorie, diskrétní modely a optimalizace | cs_CZ |
thesis.degree.discipline | Computer Science - Theory of Computing, Discrete Models and Optimization | en_US |
thesis.degree.program | Computer Science - Theory of Computing, Discrete Models and Optimization | en_US |
thesis.degree.program | Informatika - teorie, diskrétní modely a optimalizace | cs_CZ |
uk.thesis.type | dizertační práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Katedra aplikované matematiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Department of Applied Mathematics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Informatika - teorie, diskrétní modely a optimalizace | cs_CZ |
uk.degree-discipline.en | Computer Science - Theory of Computing, Discrete Models and Optimization | en_US |
uk.degree-program.cs | Informatika - teorie, diskrétní modely a optimalizace | cs_CZ |
uk.degree-program.en | Computer Science - Theory of Computing, Discrete Models and Optimization | en_US |
thesis.grade.cs | Prospěl/a | cs_CZ |
thesis.grade.en | Pass | en_US |
uk.abstract.cs | Od prvopočátku herních algoritmů byla kombinace hledání a ohodnocení budoucích stavů hry základním konceptem. Turingův šachový algoritmus z roku 1950 dokázal myslet dva kroky vpřed a Shannonova práce z roku 1950 obsahuje rozsáhlou část o způsobech ohodnocení stavů, které mají být použity při vyhledávání. Samuelův program pro hru dáma z roku 1959 již kombinuje vyhledávání a ohodnocení které se učí prostřednictvím selfp-play a bootstrap- pingu. TD-Gammon na tyto myšlenky navazuje a využívá neuronové sítě k osvojení těchto komplexních funkcí. Kombinace hledávání a hodnocení stavů byla přítomna v mnoha milnících, kde počítače překonaly své lidské protějšky - DeepBlue pro šachy a AlphaGo pro Go. Až donedávna byla tato kombinace omezena na hry s úplnou informací. Ale mnoho zajímavých problémů neposkytuje agentovi dokonalou informaci o prostředí. Tato práce uvádí čtenáře do metod umožňující hledání v hrách s neúplnou informací. 1 | cs_CZ |
uk.abstract.en | From the very dawn of the field, search with value functions was a fun- damental concept of computer games research. Turing's chess algorithm from 1950 was able to think two moves ahead, and Shannon's work on chess from 1950 includes an extensive section on evaluation functions to be used within a search. Samuel's checkers program from 1959 already combines search and value functions that are learned through self-play and bootstrapping. TD-Gammon improves upon those ideas and uses neural networks to learn those complex value functions - only to be again used within search. The combination of decision-time search and value functions has been present in the remarkable milestones where computers bested their human counterparts in long standing challenging games - DeepBlue for Chess and AlphaGo for Go. Until recently, this powerful framework of search aided with (learned) value functions has been limited to perfect information games. As many interesting problems do not provide the agent perfect information of the environment, this was an unfortunate limitation. This thesis introduces the reader to sound search for imperfect information games. 1 | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra aplikované matematiky | cs_CZ |
thesis.grade.code | P | |
dc.contributor.consultant | Bowling, Michael | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |