Bayesian Optimization of Hyperparameters Using Gaussian Processes

Arnold, Jakub

Bayesovská optimalizace hyperparametrů pomocí Gaussovských procesů

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (151.6Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/107043

Identifikátory

SIS: 212253

Oponent práce

Vomlelová, Marta

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Umělá inteligence

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

10. 6. 2019

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

gaussovský proces, bayesovská optimalizace, globální optimalizace, neuronová síť

Klíčová slova (anglicky)

gaussian process, bayesian optimization, global optimization, neural network

Cílem této práce bylo naimplementovat praktický nástroj pro optimalizaci hyperparametrů neuronových sítí pomoci bayesovské optimalizace. Práce zavádí potřebnou teorii pro bayesovskou optimalizaci, včetně matematických základů pro regresi pomocí gaussovských procesů, a dalších rozšíření bayesovské optimal- izace. Abychom mohli porovnat efektivnitu bayesovské optimalizace provedli jsme několik realistických experimentů s různými architekturami neuronových sítí. Bayesovskou optimalizaci jsme také srovnali s náhodným prohledáváním, kde ve většině případů záskala lepší výslednou hodnotu optimalizované funkce, včetně menšího rozptylu v opakovaných experimentech. Ve třech ze čtyř ex- perimentů Bayesovská optimalizace získala lepší výsledek, než ručně optimali- zované hyperparametry. Navíc také ukazujeme, jak může být regrese pomocí gaussovských procesů použita pro vizualizaci vlivů jednotlivých hyperparametrů na optimalizovanou funkci, a také závislostí mezi více hyperparametry. 1

Abstrakt (anglicky)

The goal of this thesis was to implement a practical tool for optimizing hy- perparameters of neural networks using Bayesian optimization. We show the theoretical foundations of Bayesian optimization, including the necessary math- ematical background for Gaussian Process regression, and some extensions to Bayesian optimization. In order to evaluate the performance of Bayesian op- timization, we performed multiple real-world experiments with different neural network architectures. In our comparison to a random search, Bayesian opti- mization usually obtained a higher objective function value, and achieved lower variance in repeated experiments. Furthermore, in three out of four experi- ments, the hyperparameters discovered by Bayesian optimization outperformed the manually designed ones. We also show how the underlying Gaussian Process regression can be a useful tool for visualizing the effects of each hyperparameter, as well as possible relationships between multiple hyperparameters. 1

Citace dokumentu

Metadata

Zobrazit celý záznam