Modern regression methods in data mining
Moderní regresní metody při dobývání znalostí z dat
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/77668Identifikátory
SIS: 147220
Katalog UK: 990020258120106986
Kolekce
- Kvalifikační práce [11987]
Autor
Vedoucí práce
Oponent práce
Gemrot, Jakub
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Teoretická informatika
Katedra / ústav / klinika
Katedra teoretické informatiky a matematické logiky
Datum obhajoby
8. 9. 2015
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
nelineární regrese, sítě s bázemi tvořenými radiálními funkcemi, Gaussovské procesy, náhodné lesy, testovací funkce pro black-box optimalizaciKlíčová slova (anglicky)
non-linear regression, radial basis function networks, Gaussian processes, random forests, black-box optimization benchmarksTato práce porovnává nelineární regresní metody na umělých datech vytvořených po- mocí standardních testovacích funkcí pro spojité black-box optimalizace. Pro toto srovnání jsme vybrali následující regresní metody: sítě s bázemi tvořenými radiálními funkcemi, Gaussovské procesy, regresi založenou na opěrných vektorech a náhodné lesy. Metody jsou porovnány v kontextu problémů black-box optimalizace, kde se právě tyto metody používají jako náhradní modely. Metody jsou vyhodnoceny na základě střední kvadratické chyby a na základě Kendallova koeficientu mezi pořadím funkčních hodnot podle modelu a podle funkce, která byla použita k vygenerování dat. 1
The thesis compares several non-linear regression methods on synthetic data sets gen- erated using standard benchmarks for a continuous black-box optimization. For that com- parison, we have chosen the following regression methods: radial basis function networks, Gaussian processes, support vector regression and random forests. We have also included polynomial regression which we use to explain the basic principles of regression. The com- parison of these methods is discussed in the context of black-box optimization problems where the selected methods can be applied as surrogate models. The methods are evalu- ated based on their mean-squared error and on the Kendall's rank correlation coefficient between the ordering of function values according to the model and according to the function used to generate the data. 1
