dc.contributor.advisor | Polák, Petr | |
dc.creator | Todt, Michal | |
dc.date.accessioned | 2018-10-12T12:33:04Z | |
dc.date.available | 2018-10-12T12:33:04Z | |
dc.date.issued | 2018 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/102339 | |
dc.description.abstract | Následující diplomová práce zkoumá vliv charakteristik dat z hlediska jejich rozdělení na výkonost klasifikačních metod. Použiváme metodu Gassovských kopulí a simulaci 1000 umělých datasetů. Trénujeme klasifikační metody GLM, GBM, DRF, XRT pomocí platformy pro strojové učení H2O.ai, přistupujeme k ní však pomocí R. Na těchto datasetech testujeme výkonost jenotlivých klasi- fikačních metod a prezentujeme vypozorované souvislosti. Dále používame reálný dataset o Australských půjčkách a předpovídame, která by méla být ta nejvýkonější. Predikovaná výkonost jednotlivých metod je počítána pomocí penalizování za rozdílnost Australského datasetu od datasetů, kde každá z metod fungovala komparativně lépe. Tento způsob předpovedi se ukázal jako nefungující. 1 | cs_CZ |
dc.description.abstract | The following thesis explores the impact of the dataset distributional prop- erties on classification performance. We use Gaussian copulas to generate 1000 artificial dataset and train classifiers on them. We train Generalized linear models, Distributed Random forest, Extremely randomized trees and Gradient boosting machines via H2O.ai machine learning platform accessed by R. Classi- fication performance on these datasets is evaluated and empirical observations on influence are presented. Secondly, we use real Australian credit dataset and predict which classifier is possibly going to work best. The predicted perfor- mance for any individual method is based on penalizing the differences between the Australian dataset and artificial datasets where the method performed com- paratively better, but it failed to predict correctly. 1 | en_US |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Fakulta sociálních věd | cs_CZ |
dc.subject | classification | en_US |
dc.subject | meta-learning | en_US |
dc.subject | artificial data | en_US |
dc.subject | klasifikace,meta-uceni,umela data | cs_CZ |
dc.title | Estimating performance of classifiers from dataset properties | en_US |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2018 | |
dcterms.dateAccepted | 2018-09-19 | |
dc.description.department | Institut ekonomických studií | cs_CZ |
dc.description.department | Institute of Economic Studies | en_US |
dc.description.faculty | Faculty of Social Sciences | en_US |
dc.description.faculty | Fakulta sociálních věd | cs_CZ |
dc.identifier.repId | 191854 | |
dc.title.translated | Odhadování přesnosti klasifikačních metod na základě vlasnosti dat | cs_CZ |
dc.contributor.referee | Baruník, Jozef | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Economics and Finance | en_US |
thesis.degree.discipline | Ekonomie a finance | cs_CZ |
thesis.degree.program | Economics | en_US |
thesis.degree.program | Ekonomické teorie | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Fakulta sociálních věd::Institut ekonomických studií | cs_CZ |
uk.taxonomy.organization-en | Faculty of Social Sciences::Institute of Economic Studies | en_US |
uk.faculty-name.cs | Fakulta sociálních věd | cs_CZ |
uk.faculty-name.en | Faculty of Social Sciences | en_US |
uk.faculty-abbr.cs | FSV | cs_CZ |
uk.degree-discipline.cs | Ekonomie a finance | cs_CZ |
uk.degree-discipline.en | Economics and Finance | en_US |
uk.degree-program.cs | Ekonomické teorie | cs_CZ |
uk.degree-program.en | Economics | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Následující diplomová práce zkoumá vliv charakteristik dat z hlediska jejich rozdělení na výkonost klasifikačních metod. Použiváme metodu Gassovských kopulí a simulaci 1000 umělých datasetů. Trénujeme klasifikační metody GLM, GBM, DRF, XRT pomocí platformy pro strojové učení H2O.ai, přistupujeme k ní však pomocí R. Na těchto datasetech testujeme výkonost jenotlivých klasi- fikačních metod a prezentujeme vypozorované souvislosti. Dále používame reálný dataset o Australských půjčkách a předpovídame, která by méla být ta nejvýkonější. Predikovaná výkonost jednotlivých metod je počítána pomocí penalizování za rozdílnost Australského datasetu od datasetů, kde každá z metod fungovala komparativně lépe. Tento způsob předpovedi se ukázal jako nefungující. 1 | cs_CZ |
uk.abstract.en | The following thesis explores the impact of the dataset distributional prop- erties on classification performance. We use Gaussian copulas to generate 1000 artificial dataset and train classifiers on them. We train Generalized linear models, Distributed Random forest, Extremely randomized trees and Gradient boosting machines via H2O.ai machine learning platform accessed by R. Classi- fication performance on these datasets is evaluated and empirical observations on influence are presented. Secondly, we use real Australian credit dataset and predict which classifier is possibly going to work best. The predicted perfor- mance for any individual method is based on penalizing the differences between the Australian dataset and artificial datasets where the method performed com- paratively better, but it failed to predict correctly. 1 | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Fakulta sociálních věd, Institut ekonomických studií | cs_CZ |
thesis.grade.code | B | |