Maximalizace Giniho koeficientu v binární logistické regresi
Gini coefficient maximization in binary logistic regression
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/40588Identifiers
Study Information System: 113691
Collections
- Kvalifikační práce [11325]
Author
Advisor
Referee
Hlávka, Zdeněk
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Mathematics
Department
Department of Probability and Mathematical Statistics
Date of defense
4. 9. 2012
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Very good
Keywords (Czech)
Binární logistická regrese, Giniho koeficient, maximalizace Giniho koeficientu, ztrátová funkce, metoda maximální věrohodnostiKeywords (English)
Binary logistic regression, Gini coefficient, Gini coefficient maximization, loss function, maximum likelihoodV bakalářké práci je popsán model binární logistické regrese. Pomocí pojmu ztrátové funkce jsou odvozeny metody odhadu parametrů modelu. Je definována "bohatá" množina "hezkých" ztrátových funkcí - beta rodina Fisher-konzistentních ztrátových funkcí. V druhé části práce jsou definované základní ukazatele těsnosti modelu - Giniho koeficient, C-statistika, Kolmogorov-Smirnov statistika a koefi- cient determinace R2 . Dále je rozebrána možnost odhadovat parametry modelu maximalizací Giniho koeficientu. K tomuto účelu je navrženo několik algoritmů, které jsou porovnány s již existujícími metodami na jedné sadě simulovaných a třech sadách reálných dat. 1
This Bachelor thesis describes a binary logistic regression model. By means of the term loss function a parameter estimation for the model is derived. A "rich" set of "proper" loss functions - beta family of Fisher-consistent loss functions - is defined. In the second part of the thesis, four basic goodness-of-fit criteria - Gini coefficient, C-statistics, Kolmogorov-Smirnov statistics and coefficient of determination R2 are defined. Further on, a possibility of parameter estimation by maximizing the Gini coefficient is analysed. Several algorithms are designed for this purpose. They are compared with so far existing methods in one simulated data set and three real ones. 1