Multi-agent trading environment for training robust reinforcement learning agents
Multi-agentní burzovní prostředí pro hledání robustních strategií pomocí zpětnovazebního učení
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/188486Identifiers
Study Information System: 257479
Collections
- Kvalifikační práce [11325]
Author
Advisor
Consultant
Schmid, Martin
Referee
Neruda, Roman
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Artificial Intelligence
Department
Department of Theoretical Computer Science and Mathematical Logic
Date of defense
13. 2. 2024
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
zpětnovazební učení|algoritmické obchodování|generalizace|R2D2|hluboké učeníKeywords (English)
reinforcement learning|algorithmic trading|generalization|R2D2|deep learningTato práce přináší rozsáhlou studii aplikace zpětnovazebního učení v oblasti algo- ritmického obchodování. Práce se zaměřuje zejména na to, jak modely zpětnovazebního učení generalizují, jak z pohledu velikosti trénovací množiny, tak z pohledu jejich ná- sledného přenesení na reálné finanční trhy. Za tímto cílem vytváříme simulační prostředí zohledňující důležité faktory, které ovlivňují výsledky obchodní strategie při reálném ob- chodování. V našich experimentech používáme také rozšíření algoritmu DQN, známé jako R2D2, které dosahuje velice slibných výsledků. Pokud je nám známo, je tato práce první, která algoritmus R2D2 aplikuje na oblast algorimického obchodování. Algoritmy natré- nované ve vytvořeném simulačním prostředí následně vyhodnocujeme oproti obvykle uží- vaným postupům algoritmického obchodování, abychom demonstrovali sílu modelů zpět- novazebního učení. Dále ukazujeme, jak zvyšování transakčních nákladů zvyšuje nároč- nost trénování vybraných modelů a že algoritmus R2D2 svými výsledky překonává běžné postupy algoritmického obchodování i ostatní modely zpětnovazebního učení v úloze al- goritmického obchodování. 1
This thesis presents a comprehensive study of the application of reinforcement learning to algorithmic trading. The main focus of this thesis is on the generalization properties of various reinforcement learning algorithms, both from the data perspective and the applicability of the trained agents to real algorithmic trading. To that end, we develop a training environment taking into account various real-world factors influencing the performance of algorithmic trading strategies. We also experiment with the recurrent replay buffer extension of the DQN algorithm, known as R2D2, being, to the best of our knowledge, the first to employ this algorithm for the task of algorithmic trading. Each algorithm is evaluated against traditional algorithmic trading strategies, including the buy-and-hold strategy, to demonstrate the superior performance of the reinforcement learning strategies. On top of that we also provide a study on how the amount of training data and transaction costs influence the generalization of the algorithms to unseen market conditions. We show how transaction costs significantly increase the task complexity and that the R2D2 algorithm overperforms the commonly used baselines, as well as other state-of-the-art reinforcement learning algorithms in this task. 1