Leveraging lower fidelity proxies for neural network based NAS predictors
Využití výpočetně nenáročných proxy pro NAS prediktory založené na neuronových sítích
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/190605Identifiers
Study Information System: 266577
Collections
- Kvalifikační práce [10926]
Author
Advisor
Referee
Pilát, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Artificial Intelligence
Department
Department of Theoretical Computer Science and Mathematical Logic
Date of defense
10. 6. 2024
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
prohledávání architektur neuronových sítí|prediktory výkonnosti|proxy|automatické strojové učení|neuronové sítěKeywords (English)
neural architecture search|performance predictors|proxy|AutoML|neural networksVýkonnosť neurónovej siete je závislá od viacerých faktorov, vrátane jej architek- túry. Pole výskumu prehľadávania architektúr neurónových sietí (NAS) tvorí dôležitú časť automatického strojového učenia (AutoML), keďže sa zameriava na automatizá- ciu dovtedajšieho manuálneho hľadania najlepšej architektúry pre danú úlohu. Neod- deliteľnou súčasťou prehľadávania architektúr neurónových sietí je predikcia ich výkon- nosti. Keďže klasické úplné natrénovanie a následovné testovanie architektúr je výpočtovo priveľmi náročné, veľké množstvo výskumu sa zameriava na vytvorenie menej výpočtovo náročných techník predikcie výkonnosti. V tejto práci sa zamierame na vlastnosti a implikácie využívania dvoch typov menej dôkladných proxy v spojení s prediktorom za- loženom na modeli strojového učenia. Prvý typ menej dôkladnej proxy, ktorý použijeme, sú takzvané proxy s nulovými nákladmi (zero cost proxy). Tie, spoločne s vektorom kódovania architektúry, budeme predávať prediktoru výkonnosti ako vstupné parame- tre. Druhý typ menej dôkladnej proxy sú extrapolácie kriviek učenia, ktorých výsledky budeme používať ako požadované odpovede v trénovacom súbore dát. Cieľom využitia extrapolácií v našej práci je kompenzácia pre inak veľmi dlhú inicializačnú dobu, ktorú využitie prediktora založenom na modeli strojového učenia so...
The performance of a neural network is dependent on several factors including its underlying architecture. The field of neural architecture search (NAS) is an important part of automated machine learning (AutoML) as it focuses on automatization of a previ- ously manually performed search process for the best performing architecture for a given task. Estimation of performances of architectures is an inseparable part of NAS. As the standard full training and consequent evaluation of architectures is computationally infeasible a lot of research is focused on creating less computationally demanding ways for performance estimation. In this work we will explore the behaviour and implications of utilizing two types of lower fidelity proxies in conjunction with model based perfor- mance predictor. The first type of lower fidelity proxies being zero cost (ZC) proxies used as additional input features for the model besides of standard architecture's encod- ing. The second type being learning curve extrapolation used for generating labels of the model based predictor's training dataset hence compensating for its otherwise very long initialization time. 1