The future of credit scoring modelling using advanced techniques
Budoucnost kreditního skóringu s pokročilými technikami
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/117894Identifiers
Study Information System: 213891
Collections
- Kvalifikační práce [18446]
Author
Advisor
Referee
Geršl, Adam
Faculty / Institute
Faculty of Social Sciences
Discipline
Economics and Finance
Department
Institute of Economic Studies
Date of defense
16. 6. 2020
Publisher
Univerzita Karlova, Fakulta sociálních vědLanguage
English
Grade
Excellent
Keywords (Czech)
Strojové učení, Kreditní hodnocení, Finanční odvětví, Úvěrové riziko, Prediktivní modelováníKeywords (English)
Machine learning, Credit scoring, Financial industry, Credit risk, Predictive modellingMachine learning, neboli strojové učení, se stává součástí každodenního života a má nepopiratelný vliv na celou řadu odvětví. Ve finančním odvětví tento dopad spočívá zejména v prediktivním modelování. Cílem této práce je popsat základní principy umělé inteligence, především její podmnožiny, strojového učení. Nejpoužívanější techniky strojového učení jsou v této práci nastíněny teoretickou i praktickou cestou. V rámci práce byly sestaveny čtyři praktické modely. Byly diskutovány výsledky a limitace každého z modelů a zároveň byly modely mezi sebou vzájemně porovnány na základě jejich indi- viduálních výkonů. Modelování bylo provedeno na reálných datech, poskyt- nutých společností Home Credit. Výsledný výkon metod, založených na strojovém učení a měřený pomocí metrik KS a GINI, byl bud' velmi srovn- atelný, nebo dokonce horší než výkon tradičně používané logistické regrese. Přesto mohl tento výsledek spočívat například v nedostatečném datovém souboru, v nesprávné přípravě dat, nebo v nevhodně použitých algoritmech, tedy ne nutně v samotných modelech.
Machine learning is becoming a part of everyday life and has an indisputable impact across large array of industries. In the financial industry, this impact lies particularly in predictive modelling. The goal of this thesis is to describe the basic principles of artificial intelligence and its subset, machine learning. The most widely used machine learning techniques are outlined both in a theoretical and a practical way. As a result, four models were assembled within the thesis. Results and limitations of each model were discussed and these models were also mutually compared based on their individual per- formance. The evaluation was executed on a real world dataset, provided by Home Credit company. Final performance of machine learning methods, measured by the KS and GINI metrics, was either very comparable or even worse than the performance of a traditional logistic regression. Still, the problem may lie in an insu cient dataset, in the improper data prepara- tion, or in inappropriately used algorithms, not necessarily in the models themselves.