Show simple item record

Odhadování přesnosti klasifikačních metod na základě vlasnosti dat
dc.contributor.advisorPolák, Petr
dc.creatorTodt, Michal
dc.date.accessioned2018-10-12T12:33:04Z
dc.date.available2018-10-12T12:33:04Z
dc.date.issued2018
dc.identifier.urihttp://hdl.handle.net/20.500.11956/102339
dc.description.abstractNásledující diplomová práce zkoumá vliv charakteristik dat z hlediska jejich rozdělení na výkonost klasifikačních metod. Použiváme metodu Gassovských kopulí a simulaci 1000 umělých datasetů. Trénujeme klasifikační metody GLM, GBM, DRF, XRT pomocí platformy pro strojové učení H2O.ai, přistupujeme k ní však pomocí R. Na těchto datasetech testujeme výkonost jenotlivých klasi- fikačních metod a prezentujeme vypozorované souvislosti. Dále používame reálný dataset o Australských půjčkách a předpovídame, která by méla být ta nejvýkonější. Predikovaná výkonost jednotlivých metod je počítána pomocí penalizování za rozdílnost Australského datasetu od datasetů, kde každá z metod fungovala komparativně lépe. Tento způsob předpovedi se ukázal jako nefungující. 1cs_CZ
dc.description.abstractThe following thesis explores the impact of the dataset distributional prop- erties on classification performance. We use Gaussian copulas to generate 1000 artificial dataset and train classifiers on them. We train Generalized linear models, Distributed Random forest, Extremely randomized trees and Gradient boosting machines via H2O.ai machine learning platform accessed by R. Classi- fication performance on these datasets is evaluated and empirical observations on influence are presented. Secondly, we use real Australian credit dataset and predict which classifier is possibly going to work best. The predicted perfor- mance for any individual method is based on penalizing the differences between the Australian dataset and artificial datasets where the method performed com- paratively better, but it failed to predict correctly. 1en_US
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Fakulta sociálních vědcs_CZ
dc.subjectclassificationen_US
dc.subjectmeta-learningen_US
dc.subjectartificial dataen_US
dc.subjectklasifikace,meta-uceni,umela datacs_CZ
dc.titleEstimating performance of classifiers from dataset propertiesen_US
dc.typediplomová prácecs_CZ
dcterms.created2018
dcterms.dateAccepted2018-09-19
dc.description.departmentInstitut ekonomických studiícs_CZ
dc.description.departmentInstitute of Economic Studiesen_US
dc.description.facultyFaculty of Social Sciencesen_US
dc.description.facultyFakulta sociálních vědcs_CZ
dc.identifier.repId191854
dc.title.translatedOdhadování přesnosti klasifikačních metod na základě vlasnosti datcs_CZ
dc.contributor.refereeBaruník, Jozef
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineEconomics and Financeen_US
thesis.degree.disciplineEkonomie a financecs_CZ
thesis.degree.programEconomicsen_US
thesis.degree.programEkonomické teoriecs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csFakulta sociálních věd::Institut ekonomických studiícs_CZ
uk.taxonomy.organization-enFaculty of Social Sciences::Institute of Economic Studiesen_US
uk.faculty-name.csFakulta sociálních vědcs_CZ
uk.faculty-name.enFaculty of Social Sciencesen_US
uk.faculty-abbr.csFSVcs_CZ
uk.degree-discipline.csEkonomie a financecs_CZ
uk.degree-discipline.enEconomics and Financeen_US
uk.degree-program.csEkonomické teoriecs_CZ
uk.degree-program.enEconomicsen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csNásledující diplomová práce zkoumá vliv charakteristik dat z hlediska jejich rozdělení na výkonost klasifikačních metod. Použiváme metodu Gassovských kopulí a simulaci 1000 umělých datasetů. Trénujeme klasifikační metody GLM, GBM, DRF, XRT pomocí platformy pro strojové učení H2O.ai, přistupujeme k ní však pomocí R. Na těchto datasetech testujeme výkonost jenotlivých klasi- fikačních metod a prezentujeme vypozorované souvislosti. Dále používame reálný dataset o Australských půjčkách a předpovídame, která by méla být ta nejvýkonější. Predikovaná výkonost jednotlivých metod je počítána pomocí penalizování za rozdílnost Australského datasetu od datasetů, kde každá z metod fungovala komparativně lépe. Tento způsob předpovedi se ukázal jako nefungující. 1cs_CZ
uk.abstract.enThe following thesis explores the impact of the dataset distributional prop- erties on classification performance. We use Gaussian copulas to generate 1000 artificial dataset and train classifiers on them. We train Generalized linear models, Distributed Random forest, Extremely randomized trees and Gradient boosting machines via H2O.ai machine learning platform accessed by R. Classi- fication performance on these datasets is evaluated and empirical observations on influence are presented. Secondly, we use real Australian credit dataset and predict which classifier is possibly going to work best. The predicted perfor- mance for any individual method is based on penalizing the differences between the Australian dataset and artificial datasets where the method performed com- paratively better, but it failed to predict correctly. 1en_US
uk.file-availabilityV
uk.publication.placePrahacs_CZ
uk.grantorUniverzita Karlova, Fakulta sociálních věd, Institut ekonomických studiícs_CZ
thesis.grade.codeB


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV