Initialization in neural networks

Hruška, Martin

Inicializace v neuronových sítích

diplomová práce (NEOBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (408.3Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/202594

Identifikátory

SIS: 276726

Konzultant práce

Mizera, Ivan

Oponent práce

Maciak, Matúš

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Pravděpodobnost, matematická statistika a ekonometrie se specializací Matematická statistika

Katedra / ústav / klinika

Katedra pravděpodobnosti a matematické statistiky

Datum obhajoby

5. 9. 2025

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Neprospěl/a

Klíčová slova (česky)

neuronové sítě|inicializace|ResNet

Klíčová slova (anglicky)

neural networks|initialization|ResNet

Tato práce zkoumá vliv inicializačních vah na trénink hlubokých neuronových sítí, konkrétně na architekturu ResNet, která využívá plné předaktivační reziduální bloky a aktivační funkci ReLU. Provádíme teoretické odvození propagace rozptylu gradientu a ukazujeme, že skip connections pomáhají stabilizovat trénování a zmírnit problém mize- jících gradientů. Na tomto základě upravujeme a používáme tréninkový skript timm v PyTorch knihovně k vyhodnocení různých inicializačních metod ve 30 modelech ResNet- 50 natrénovaných pomocí datasetu ImageNet. Tyto rozsáhlé experimenty, prováděné po dobu 20 dnů na clusteru GPU, identifikují pouze nepatrné rozdíly ve výkonu mezi inicia- lizačními technikami. Naše zjištění naznačují, že prvky moderních architektur a optimali- zátory snižují závislost na konkrétních inicializacích, což zdůrazňuje prioritu designových rozhodnutí před inicializačními technikami v hlubokém učení.

Abstrakt (anglicky)

This thesis examines how weight initialization affects the training of deep neural net- works, specifically targeting the ResNet architecture, which utilizes full pre-activation residual blocks and ReLU activations. We perform a theoretical derivation of gradi- ent variance propagation, illustrating that skip connections help stabilize training and mitigate the issue of vanishing gradients. With this foundation, we adapt and use the timm PyTorch training framework to evaluate different initialization methods across 30 ResNet-50 models trained using ImageNet. These extensive experiments, carried out over 20 days on a GPU cluster, identify only slight performance variations between the initialization techniques. Our findings indicate that features of modern architectures and optimizers lessen the dependency on particular initializations, highlighting the priority of design decisions over initialization techniques in deep learning.

Citace dokumentu

Metadata

Zobrazit celý záznam