Srovnání logistické regrese a rozhodovacích stromů
Comparison of logistic regression and decision trees
bachelor thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/40381Identifiers
Study Information System: 114740
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Komárek, Arnošt
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Financial Mathematics
Department
Department of Probability and Mathematical Statistics
Date of defense
29. 6. 2012
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Very good
Keywords (Czech)
binární data, klasifikace, logistická regrese, rozhodovací stromyKeywords (English)
binary data, classification, logistic regression, decision treesTato práce pojednává o klasifikaci binárních dat s využitím dvou často používaných metod - logistické regrese a rozhodovacích stromů. Tyto dvě metody přistupují ke klasifikaci rozdílným způsobem, a proto je cílem této práce porovnat úspěšnost jejich předpovědí. Nejprve je zaveden model logistické regrese a odhad jeho parametrů pomocí metody maximální věrohodnosti. Dále se práce věnuje rozhodovacím stromům, jakožto jednomu z hlavních klasifikačních nástrojů. Popsány jsou zde starší klasické algoritmy CART a C4.5 a taktéž novější algoritmy QUEST a CRUISE. Předpovědi obou metod jsou ukázány na reálné sadě dat.
In this thesis we describe a classification of the binary data. For discussing this problem we use two well-known methods - logistic regression and decision trees. These methods deal with the problem in different way, so our aim is to compare a successfulness of their predictions. At first a model of logistic regression is introduced and we show how to estimate its parameters using a method of maximum likelihood. Then we describe decision trees as one of the most popular classification tools. There are discussed older classic algorithms CART and C4.5 and also two new algorithms GUEST and CRUISE. The predictions of both of the methods are shown on a real data example.