Bayesian Optimization of Hyperparameters Using Gaussian Processes

Arnold, Jakub

Bayesovská optimalizace hyperparametrů pomocí Gaussovských procesů

diploma thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (151.6Kb)

Permanent link

http://hdl.handle.net/20.500.11956/107043

Identifiers

Study Information System: 212253

Referee

Vomlelová, Marta

Faculty / Institute

Faculty of Mathematics and Physics

Discipline

Artificial Intelligence

Department

Institute of Formal and Applied Linguistics

Date of defense

10. 6. 2019

Publisher

Univerzita Karlova, Matematicko-fyzikální fakulta

Language

English

Grade

Excellent

Keywords (Czech)

gaussovský proces, bayesovská optimalizace, globální optimalizace, neuronová síť

Keywords (English)

gaussian process, bayesian optimization, global optimization, neural network

Cílem této práce bylo naimplementovat praktický nástroj pro optimalizaci hyperparametrů neuronových sítí pomoci bayesovské optimalizace. Práce zavádí potřebnou teorii pro bayesovskou optimalizaci, včetně matematických základů pro regresi pomocí gaussovských procesů, a dalších rozšíření bayesovské optimal- izace. Abychom mohli porovnat efektivnitu bayesovské optimalizace provedli jsme několik realistických experimentů s různými architekturami neuronových sítí. Bayesovskou optimalizaci jsme také srovnali s náhodným prohledáváním, kde ve většině případů záskala lepší výslednou hodnotu optimalizované funkce, včetně menšího rozptylu v opakovaných experimentech. Ve třech ze čtyř ex- perimentů Bayesovská optimalizace získala lepší výsledek, než ručně optimali- zované hyperparametry. Navíc také ukazujeme, jak může být regrese pomocí gaussovských procesů použita pro vizualizaci vlivů jednotlivých hyperparametrů na optimalizovanou funkci, a také závislostí mezi více hyperparametry. 1

Abstract (English)

The goal of this thesis was to implement a practical tool for optimizing hy- perparameters of neural networks using Bayesian optimization. We show the theoretical foundations of Bayesian optimization, including the necessary math- ematical background for Gaussian Process regression, and some extensions to Bayesian optimization. In order to evaluate the performance of Bayesian op- timization, we performed multiple real-world experiments with different neural network architectures. In our comparison to a random search, Bayesian opti- mization usually obtained a higher objective function value, and achieved lower variance in repeated experiments. Furthermore, in three out of four experi- ments, the hyperparameters discovered by Bayesian optimization outperformed the manually designed ones. We also show how the underlying Gaussian Process regression can be a useful tool for visualizing the effects of each hyperparameter, as well as possible relationships between multiple hyperparameters. 1

Citace dokumentu

Metadata

Show full item record