Ensemble learning methods for scoring models development
Ensemble learning metody pro vývoj skóringových modelů
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/98782Identifiers
Study Information System: 197114
Collections
- Kvalifikační práce [11325]
Author
Advisor
Referee
Cipra, Tomáš
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Financial and insurance mathematics
Department
Department of Probability and Mathematical Statistics
Date of defense
8. 6. 2018
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
kreditní riziko, ensemble learning, boosting, bagging, stackingKeywords (English)
credit risk, ensemble learning, boosting, bagging, stackingKreditní skóring je velmi důležitý proces používaný v oblasti bankovnictví, během něhož je každému potenciálnímu nebo stávajícímu klientovi přiřazena hodnota kreditního skóre, které určitým způsobem vyjadřuje pravděpodobnost defaultu klienta, tj. neschopnost klienta dostát svým závazkům včas nebo v plné výši. Ke kreditnímu skóringu se tradičně využívají statistické modely (jako např. model logistické regrese). Navzdory mnoha výhodám, které takovýto přístup poskytuje, nejnovější výzkum ukazuje mnoho alternativních přístupů, které jsou v některých ohledech lepší než tradiční statistické modely. Tato diplomová práce je zaměřena na představení ensemble learning modelů (zejména těch konstruovaných pomocí algoritmů bagging, boosting a stacking) za použití různých základních modelů (zejména modelu logistické regrese, modelu náhodných lesů, support vector machines modelu a modelu umělých neuronových sítí) jako možných alternativ k tradičním statistickým modelům, které jsou obvykle používány pro kreditní skóring, a vzájemně porovnává jejich výhody a nevýhody. Přesnost a prediktivní síla těchto skóringových modelů je zkoumána pomocí měr přesnosti a prediktivní síly standardně používaných v oblasti kreditního skóringu (zejména GINI a LIFT koeficientů) na reálných datech a obdržené výsledky jsou prezentovány. Hlavní...
Credit scoring is very important process in banking industry during which each potential or current client is assigned credit score that in certain way expresses client's probability of default, i.e. failing to meet his or her obligations on time or in full amount. This is a cornerstone of credit risk management in banking industry. Traditionally, statistical models (such as logistic regression model) are used for credit scoring in practice. Despite many advantages of such approach, recent research shows many alternatives that are in some ways superior to those traditional models. This master thesis is focused on introducing ensemble learning models (in particular constructed by using bagging, boosting and stacking algorithms) with various base models (in particular logistic regression, random forest, support vector machines and artificial neural network) as possible alternatives and challengers to traditional statistical models used for credit scoring and compares their advantages and disadvantages. Accuracy and predictive power of those scoring models is examined using standard measures of accuracy and predictive power in credit scoring field (in particular GINI coefficient and LIFT coefficient) on a real world dataset and obtained results are presented. The main result of this comparative study is that...