Data Preprocessing Strategies in Imbalanced Data Classification
Strategie Předzpracování Dat v Klasifikaci s Nevyváženým Poměrem Tříd
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/174145Identifiers
Study Information System: 239172
Collections
- Kvalifikační práce [11322]
Author
Advisor
Consultant
Brabec, Jan
Referee
Svoboda, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science with specialisation in Artificial Intelligence
Department
Department of Software Engineering
Date of defense
17. 6. 2022
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
umelá inteligencia|strojové učenie|klasifikácia s nevyvážením pomerom triedKeywords (English)
artificial intelligence|machine learning|imbalanced classificationUčenie sa z dát s nevyváženým pomerom tried je témou výskumu, ktorá sa skúma už mnoho rokov. V súčasnosti sa používajú dva hlavné prístupy - metódy na úrovni dát a metódy na úrovni algoritmov. Rozhodli sme sa študovať metódy vzorkovania, ktoré patria do kategórie metód na úrovni dát. Tieto metódy modifikujú trénovaciu časť dát, na rozdiel od metód na úrovni algoritmov, ktoré modifikujú samotný klasifikátor. Metódy vzorkovania sa ďalej delia na metódy prevzorkovani a podvzorkovania. Je náročné vedieť, ktorá skupina metód funguje lepšie a ktoré algoritmy vynikajú najviac. Usku- točnili sme preto experiment nevídaného rozsahu. Systematicky a robustne sme porovnali šestnásť metód prevzorkovania nad osemnástimi datasetmi s nevyváženým pomerom tried a zhrnuli sme výsledky v tejto práci. Výsledky ukazujú, že metódy prevzorkovania prekonali väčšinu metód podvzorkovania z hľadiska výkonu aj času predspracovania. 1
Learning from imbalanced data has been a research topic studied for many years. There are two main approaches used today - data-level and algorithm- level methods. We set out to study resampling methods which belong to the category of data-level methods. These methods modify the training part of a dataset as opposed to algorithm-level methods, which modify a classifier itself. Resampling methods are further divided into oversampling and un- dersampling methods. It is challenging to know which group of methods performs better and which algorithms stand out the most. We conducted an experiment of unseen scale. We systematically and robustly compared sixteen preprocessing methods over eighteen imbalanced datasets and sum- marised the results in this thesis. The results show that oversampling meth- ods outperformed most undersampling methods in both performance and preprocessing time. 1