Bayesian Optimization of Hyperparameters Using Gaussian Processes
Bayesovská optimalizace hyperparametrů pomocí Gaussovských procesů
diploma thesis (DEFENDED)
![Document thumbnail](/bitstream/handle/20.500.11956/107043/thumbnail.png?sequence=8&isAllowed=y)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/107043Identifiers
Study Information System: 212253
Collections
- Kvalifikační práce [10921]
Author
Advisor
Referee
Vomlelová, Marta
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Artificial Intelligence
Department
Institute of Formal and Applied Linguistics
Date of defense
10. 6. 2019
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
gaussovský proces, bayesovská optimalizace, globální optimalizace, neuronová síťKeywords (English)
gaussian process, bayesian optimization, global optimization, neural networkCílem této práce bylo naimplementovat praktický nástroj pro optimalizaci hyperparametrů neuronových sítí pomoci bayesovské optimalizace. Práce zavádí potřebnou teorii pro bayesovskou optimalizaci, včetně matematických základů pro regresi pomocí gaussovských procesů, a dalších rozšíření bayesovské optimal- izace. Abychom mohli porovnat efektivnitu bayesovské optimalizace provedli jsme několik realistických experimentů s různými architekturami neuronových sítí. Bayesovskou optimalizaci jsme také srovnali s náhodným prohledáváním, kde ve většině případů záskala lepší výslednou hodnotu optimalizované funkce, včetně menšího rozptylu v opakovaných experimentech. Ve třech ze čtyř ex- perimentů Bayesovská optimalizace získala lepší výsledek, než ručně optimali- zované hyperparametry. Navíc také ukazujeme, jak může být regrese pomocí gaussovských procesů použita pro vizualizaci vlivů jednotlivých hyperparametrů na optimalizovanou funkci, a také závislostí mezi více hyperparametry. 1
The goal of this thesis was to implement a practical tool for optimizing hy- perparameters of neural networks using Bayesian optimization. We show the theoretical foundations of Bayesian optimization, including the necessary math- ematical background for Gaussian Process regression, and some extensions to Bayesian optimization. In order to evaluate the performance of Bayesian op- timization, we performed multiple real-world experiments with different neural network architectures. In our comparison to a random search, Bayesian opti- mization usually obtained a higher objective function value, and achieved lower variance in repeated experiments. Furthermore, in three out of four experi- ments, the hyperparameters discovered by Bayesian optimization outperformed the manually designed ones. We also show how the underlying Gaussian Process regression can be a useful tool for visualizing the effects of each hyperparameter, as well as possible relationships between multiple hyperparameters. 1