Computational Intelligence Methods in Metalearning
Metody výpočetní inteligence pro metaučení
dissertation thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/82405Identifiers
Study Information System: 123234
Collections
- Kvalifikační práce [11196]
Author
Advisor
Referee
Vanschoren, Joaquin
Vomlelová, Marta
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Theoretical Computer Science
Department (external)
Information is unavailable
Date of defense
26. 9. 2016
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Pass
Keywords (Czech)
Metaučení, Strojové učení, Metriky, Genetické algoritmy, Přiřazování atributůKeywords (English)
Metalearning, Machine Learning, Metric, Genetic Algorithms, Attribute AssignmentTato práce je zaměřena na problematiku výběru algoritmu, která má za cíl doporučit algoritmus strojového učení k nové úloze. Řešení problému vychází z myšlenky, že se algoritmy chovají podobně na podobných datech. Tato podobnost je často založena na extrakci pevného počtu metaatributů z každé úlohy. Vzhledem k tomu, že počet atributů se u různých úloh typicky liší, ztrácíme tak důležité informace. V této práci popíšeme třídu algoritmů, která dokáže zpracovat také informace o jednotlivých atributech. Naše metody jsou založeny na přiřazování atributů. Výsledná vzdálenost mezi úlohami je dána jako součet vzdáleností mezi atributy určenými optimálním přiřazením. Dále dokážeme, že za určitých podmínek můžeme zaručit, že výsledná vzdálenost mezi úlohami je metrika. Provedeme sadu experimentů na datech extrahovaných z OpenML repozitáře. Vytvoříme vzdálenost mezi atributy prostřednictvím genetických algoritmů, genetického programování a několika regularizačních technik, jako je koevoluce a zavedení vícekriteriality. Výsledky experimentů naznačují, že výsledná vzdálenost mezi úlohami může být úspěšně použita na problematiku výběru algoritmu. Ačkoliv jsme naše metody použili výhradně k metaučení, lze je aplikovat i v jiných oblastech. Navržené algoritmy jsou aplikovatelné kdekoliv, kde máme definovanou vzdálenost...
This thesis focuses on the algorithm selection problem, in which the goal is to recommend machine learning algorithms to a new dataset. The idea behind solving this issue is that algorithm performs similarly on similar datasets. The usual approach is to base the similarity measure on the fixed vector of metafeatures extracted out of each dataset. However, as the number of attributes among datasets varies, we may be loosing important information. Herein, we propose a family of algorithms able to handle even the non-propositional representations of datasets. Our methods use the idea of attribute assignment that builds the distance measure between datasets as a sum of distance given by the optimal assignment and an attribute distance measure. Furthermore, we prove that under certain conditions, we can guarantee the resulting dataset distance to be a metric. We carry out a series of metalearning experiments on the data extracted from the OpenML repository. We build up attribute distance using Genetic Algorithms, Genetic Programming and several regularization techniques such as multi-objectivization, coevolution, and bootstrapping. The experiment indicates that the resulting dataset distance can be successfully applied on the algorithm selection problem. Although we use the proposed distance measures exclusively...