SVM classifiers and heuristics for feature selection
SVM klasifikátory a heuristiky pro selekci příznaků
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/84562Identifikátory
SIS: 160369
Kolekce
- Kvalifikační práce [11214]
Autor
Vedoucí práce
Oponent práce
Kopa, Miloš
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná matematika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
2. 9. 2016
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
Strojové Učení, Výběr Příznaků, SVM, Recursive Feature EliminationKlíčová slova (anglicky)
Machine Learning, Feature Selection, SVM, Recursive Feature EliminationV aplikacích strojového učení s velkým množstvím počítačem vytvářených příznaků je často zapotřebí užít pouze jejich malou podmnožinu. Algoritmus "Recursive Feature Elimination" (SVM-RFE) publikovaný v práci Guyon et al. (2002), který vybírá příznaky na základě jejich váhy v SVM modelu, prokázal na úloze výběru genů pro klasifikaci leukemie do té doby nepřekonanou výkonnost (Tan et al. (2010)). Tato práce rozvíjí tuto metodu a předkládá novou modifikaci algoritmu SVM-RFE nazvanou Evaluation-Based RFE (EB-RFE). Ve srovnání s původním algoritmem SVM-RFE tato heuristika významně zvedá výkonnost výsledného SVM klasifikátoru na studované úloze strojového učení. Experimenty navíc ukazují, že tato nová heuristika má další dvě žádoucí vlastnosti. Za prvé, EB-RFE generuje výrazně menší podmnožíny příznaků, čímž umožňuje trénovat kompaktnější modely. Za druhé, heuristika EB-RFE je narozdíl od originálního algoritmu SVM-RFE jednoduše škálovatelná v závislosti na výpočetním čase, a to výrazně nad možnosti současných nejvýkonnějších běžných počítačů. Powered by TCPDF (www.tcpdf.org)
In machine learning applications with a large number of computer-generated features, a selection of just a subset of features is often desirable. The Recursive Feature Elimination (SVM-RFE) algorithm proposed by Guyon et al. (2002) employs the mechanism of selecting the features based on their contribution to an SVM model decision rule, and has proven a state-of-the-art performance on the Gene Selection for Cancer Classification task (Tan et al. (2010)). This thesis expands on that work, and proposes a novel modification of the SVM-RFE feature selection method called Evaluation-Based RFE (EB-RFE). This heuristic significantly improves the performance of the SVM classifier in comparison to the original SVM-RFE on the studied machine learning task. In addition to the performance gain, the proposed algorithm has also, in experimental use, proven to have two other desirable properties. Firstly, EB-RFE produces much smaller feature subsets than SVM-RFE, which leads to more compact models. Secondly, unlike SVM-RFE, the EB-RFE heuristic is easily scalable with the computational time well beyond the possibilities of current high-end consumer CPUs. Powered by TCPDF (www.tcpdf.org)