Scalable and Interpretable Conjugate Gradient Techniques
Škálovatelné a interpretovatel'né techniky metódy konjugovaných gradientov
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/199673Identifikátory
SIS: 279478
Kolekce
- Kvalifikační práce [11981]
Autor
Vedoucí práce
Oponent práce
Pešková, Klára
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Umělá inteligence
Katedra / ústav / klinika
Katedra teoretické informatiky a matematické logiky
Datum obhajoby
9. 6. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
Vysvětlitelná umělá inteligence|XAI|konjugované gradienty|škálované konjugované gradienty|reprezentace znalostíKlíčová slova (anglicky)
explainable artificial intelligence|XAI|conjugate gradients|scaled conjugate gradients|knowledge representationRozšírené používanie neurónových sietí a ich rastúca zložitosť si vyžaduje účinné al- goritmy na optimalizáciu ich výkonu. Hoci metódy druhého rádu, ako napríklad Scaled Conjugate Gradient (SCG), ponúkajú potenciálne výhody vďaka využitiu informácií o za- krivení povrchu chybovej funkcie, štandardná SCG sa zle škáluje pri rozsiahlych modeloch a dátových sadách. Táto práca sa zaoberá problémom adaptácie SCG na trénovanie hlbo- kých neurónových sietí na veľkých dátových sadách. V práci skúmame správanie SCG na referenčných úlohách a identifikujeme jeho silné stránky a obmedzenia. Na základe tejto analýzy navrhujeme mini-batch SCG (MBSCG) a spolu s jeho použitím aj dve trénovacie techniky Reused-Batch a Batch-Overlap. Experimenty v ktorých porovnávame tieto tech- niky s algoritmom Adam na dátových sadách MNIST, CIFAR-100 a SST-2 preukazujú zaujímavý potenciál nášho prístupu. Okrem toho, štúdie interpretovateľnosti naznačujú, že metódy založené na SCG môžu viesť k odlišným naučeným reprezentáciám vzoriek v porovnaní s Adamom.
The widespread use of neural networks and their increasing complexity necessitate effective training algorithms to optimize their performance. While second-order methods like Scaled Conjugate Gradient (SCG) offer potential benefits by utilizing curvature infor- mation, standard SCG scales poorly with large datasets typical in modern deep learning. This thesis tackles the problem of adapting SCG for training deep neural networks on large datasets. We investigate SCG's behavior on benchmark tasks, identifying its strengths and limitations. Based on this analysis, we propose Mini-Batch SCG (MBSCG) and two training techniques, Reused-Batch and Batch-Overlap, designed to enhance scalability and convergence. Comparative experiments against Adam on MNIST, CIFAR-100, and SST-2 demonstrate the viability of our approach. Furthermore, interpretability studies reveal that SCG-based methods can induce distinct learned representations compared to Adam.
