Výběr modelu na základě penalizované věrohodnosti
Variable selection based on penalized likelihood
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/78449Identifikátory
SIS: 157617
Katalog UK: 990020924160106986
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Maciak, Matúš
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Pravděpodobnost, matematická statistika a ekonometrie
Katedra / ústav / klinika
Katedra pravděpodobnosti a matematické statistiky
Datum obhajoby
9. 6. 2016
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
penalizované nejmenší čtverce, LASSO, SCAD, ladící parametrKlíčová slova (anglicky)
penalized least squares, LASSO, SCAD, tuning parameterČasto zmiňovaným tématem moderní statistiky je výběr proměnných a odhad regresních koeficientů v datech, kde počet proměnných výrazně převyšuje počet pozorování. V současnosti se na řešení tohoto problému používá penalizace maximální věrohodnosti pomocí vhodně zvolené funkce parametru. Dobrá penalizační funkce by měla ohodnotit přínos proměnné a případně zmenšit či vynulovat příslušný regresní koeficient. Pro svou schop- nost vybrat vhodné regresory a zároveň odhadnout parametry v modelu jsou oblíbené penalizační funkce SCAD a LASSO. Práce přináší přehled dosa- vadních výsledků v oblasti vlastností odhadů získaných pomocí těchto dvou funkcí pro malý počet regresorů i pro mnohorozměrná data v normálním lineárním modelu. Jelikož míru penalizace a tedy i výběr správného modelu silně ovlivňuje ladící parametr, zaměříme se také na jeho volbu. Chování LASSO a SCAD penalizací pro různé hodnoty i způsoby volby ladícího pa- rametru ověříme pro různý počet regresorů na nasimulovaných datech.
Selection of variables and estimation of regression coefficients in datasets with the number of variables exceeding the number of observations consti- tutes an often discussed topic in modern statistics. Today the maximum penalized likelihood method with an appropriately selected function of the parameter as the penalty is used for solving this problem. The penalty should evaluate the benefit of the variable and possibly mitigate or nullify the re- spective regression coefficient. The SCAD and LASSO penalty functions are popular for their ability to choose appropriate regressors and at the same time estimate the parameters in a model. This thesis presents an overview of up to date results in the area of characteristics of estimates obtained by using these two methods for both small number of regressors and multidimensional datasets in a normal linear model. Due to the fact that the amount of pe- nalty and therefore also the choice of the model is heavily influenced by the tuning parameter, this thesis further discusses its selection. The behavior of the LASSO and SCAD penalty functions for different values and possibili- ties for selection of the tuning parameter is tested with various numbers of regressors on simulated datasets.
