Initialization in neural networks
Inicializace v neuronových sítích
diplomová práce (NEOBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/202594Identifikátory
SIS: 276726
Kolekce
- Kvalifikační práce [11987]
Autor
Vedoucí práce
Konzultant práce
Mizera, Ivan
Oponent práce
Maciak, Matúš
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Pravděpodobnost, matematická statistika a ekonometrie se specializací Matematická statistika
Katedra / ústav / klinika
Katedra pravděpodobnosti a matematické statistiky
Datum obhajoby
5. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Neprospěl/a
Klíčová slova (česky)
neuronové sítě|inicializace|ResNetKlíčová slova (anglicky)
neural networks|initialization|ResNetTato práce zkoumá vliv inicializačních vah na trénink hlubokých neuronových sítí, konkrétně na architekturu ResNet, která využívá plné předaktivační reziduální bloky a aktivační funkci ReLU. Provádíme teoretické odvození propagace rozptylu gradientu a ukazujeme, že skip connections pomáhají stabilizovat trénování a zmírnit problém mize- jících gradientů. Na tomto základě upravujeme a používáme tréninkový skript timm v PyTorch knihovně k vyhodnocení různých inicializačních metod ve 30 modelech ResNet- 50 natrénovaných pomocí datasetu ImageNet. Tyto rozsáhlé experimenty, prováděné po dobu 20 dnů na clusteru GPU, identifikují pouze nepatrné rozdíly ve výkonu mezi inicia- lizačními technikami. Naše zjištění naznačují, že prvky moderních architektur a optimali- zátory snižují závislost na konkrétních inicializacích, což zdůrazňuje prioritu designových rozhodnutí před inicializačními technikami v hlubokém učení.
This thesis examines how weight initialization affects the training of deep neural net- works, specifically targeting the ResNet architecture, which utilizes full pre-activation residual blocks and ReLU activations. We perform a theoretical derivation of gradi- ent variance propagation, illustrating that skip connections help stabilize training and mitigate the issue of vanishing gradients. With this foundation, we adapt and use the timm PyTorch training framework to evaluate different initialization methods across 30 ResNet-50 models trained using ImageNet. These extensive experiments, carried out over 20 days on a GPU cluster, identify only slight performance variations between the initialization techniques. Our findings indicate that features of modern architectures and optimizers lessen the dependency on particular initializations, highlighting the priority of design decisions over initialization techniques in deep learning.
