Beta regression
Beta regrese
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/173573Identifiers
Study Information System: 217116
Collections
- Kvalifikační práce [11325]
Author
Advisor
Referee
Omelka, Marek
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Probability, mathematical statistics and econometrics
Department
Department of Probability and Mathematical Statistics
Date of defense
8. 6. 2022
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Very good
Keywords (Czech)
beta rozdělení|beta regrese|intervalová data|beta rozdělení s nadbytečnými nulami či jedničkamiKeywords (English)
beta distribution|beta regression|interval data|inflated distributionTato práce se zabývá modelem beta regrese vhodným pro analýzu dat, jejichž obor hodnot je interval (0, 1). Tento model předpokládá, že odezva má podmíněné beta roz- dělení a jeho struktura je podobná zobecněným lineárním modelům. Model je v práci formálně definován a jsou popsány jeho základní vlastnosti. Dále je odvozen maximálně věrohodný odhad parametrů a jeho asymptotické chování. V práci je uvažováno rozšíření modelu pro situaci, kdy hodnoty vysvětlované proměnné nabývají také krajních bodů in- tervalu (0, 1). Pro oba modely je diskutována statistická inference a diagnostika modelu. Praktická část práce zahrnuje dvě Monte Carlo studie a dvě analýzy reálných dat. První simulační studie porovnává globální míry shody modelu s pozorováními, druhá studie zkoumá různé přístupy k analýze beta rozdělení s nadbytečnými nulami nebo jednič- kami, tedy situaci, kdy pozorování mohou nabývat také krajních bodů. Pro případy, kdy algoritmus nekonvergoval, jsme navrhli alternativní počáteční hodnoty. Praktické vyu- žití modelu je ilustrováno na modelu podílů vysokoškolsky vzdělaných lidí v evropských zemích a na modelu podílu výdajů na vzdělávání z příjmů domácností na Filipínách. 1
The thesis deals with a beta regression model suitable for analysing data whose range of values is the interval (0, 1). The model assumes a conditional beta distribution for the response given covariates, and its structure is similar to generalised linear models. The model is defined and its basic properties are investigated. The asymptotic distribution of the maximum likelihood estimates is provided. A possible extension to situations where the response in the data attains one of the boundary values is considered and referred to as c-inflated beta regression model. For both models, statistical inference and model diagnostics are discussed. The practical part of the thesis involves two Monte Carlo studies and two real data analyses. The first simulation study compares the performance of the global goodness-of-fit measures for link selection, while the second study explores various approaches to the analysis of the inflated beta distribution response. Alternative initial values are proposed for the cases where the algorithm did not converge. The practical usage of the model is illustrated on a model of proportions of tertiary educated people in European countries, and the proportion of household income spent on education in the Philippines. 1