World Models in Reinforcement Learning
World modely ve zpětnovazebním učení
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/202436Identifikátory
SIS: 273964
Kolekce
- Kvalifikační práce [11987]
Autor
Vedoucí práce
Oponent práce
Lorenc, Matyáš
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Katedra teoretické informatiky a matematické logiky
Datum obhajoby
4. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Velmi dobře
Klíčová slova (česky)
machine learning|reinforcement learning|model-based reinforcement learningKlíčová slova (anglicky)
strojové učení|zpětnovazební učení|zpětnovazební učení s modelem světaHluboké zpětnovazební učení je z hlediska množství potřebných interakcí se světem notoricky neefektivní, což omezuje jeho využití v reálném světě. Zpětno- vazební učení založené na modelu světa tento problém řeší vytvořením a následným učením v simulovaném prostředí. Tato práce se zabývá alternativními architek- turami komponent modelu světa. Provedli jsme dva experimenty založené na architektuře IRIS a vyhodnotili jejich výsledky na benchmarku Atari 100K. V prvním experimentu jsme zkoumali přenos naučených znalostí z velkého jazykového modelu pomocí inicializace vah modelu světa vahami z předtrénovaného modelu GPT-2. Ačkoliv tento přístup nepřekonal základní model při plném trénovaní, dosáhl výrazně lepších výsledků, pokud se části modelu světa zmrazily a netréno- valy. V druhém experimentu jsme navrhli novou páteřní architekturu modelu světa využívající architekturu Neural circuit policies (NCP). Ta dosahuje výsledků srovnatelných s původním modelem IRIS, což ukazuje, že NCP je potenciálně dobrá pro modelování světa. 1
Deep reinforcement learning is notoriously sample inefficient, limiting its application to real-world problems. Model-based reinforcement learning addresses this by building a predictive world model and then learning inside this model. This thesis investigates alternative neural architectures for the world model component. We conducted two experiments based on the IRIS architecture and evaluated it on the Atari 100K benchmark. First, we explore the transfer of knowledge from large language models by initializing the world model with pretrained GPT-2 weights. Although not outperforming the baseline when fully trained, it provides a significantly better inductive bias when parts of the model are frozen. Second, we propose a novel world model backbone using Neural circuit policies (NCPs) architecture. It achieves performance comparable to the original IRIS, proving that NPCs are viable for world modeling. 1
