Data Preprocessing Strategies in Imbalanced Data Classification
Strategie Předzpracování Dat v Klasifikaci s Nevyváženým Poměrem Tříd
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/174145Identifikátory
SIS: 239172
Kolekce
- Kvalifikační práce [11987]
Autor
Vedoucí práce
Konzultant práce
Brabec, Jan
Oponent práce
Svoboda, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
17. 6. 2022
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
umelá inteligencia|strojové učenie|klasifikácia s nevyvážením pomerom triedKlíčová slova (anglicky)
artificial intelligence|machine learning|imbalanced classificationUčenie sa z dát s nevyváženým pomerom tried je témou výskumu, ktorá sa skúma už mnoho rokov. V súčasnosti sa používajú dva hlavné prístupy - metódy na úrovni dát a metódy na úrovni algoritmov. Rozhodli sme sa študovať metódy vzorkovania, ktoré patria do kategórie metód na úrovni dát. Tieto metódy modifikujú trénovaciu časť dát, na rozdiel od metód na úrovni algoritmov, ktoré modifikujú samotný klasifikátor. Metódy vzorkovania sa ďalej delia na metódy prevzorkovani a podvzorkovania. Je náročné vedieť, ktorá skupina metód funguje lepšie a ktoré algoritmy vynikajú najviac. Usku- točnili sme preto experiment nevídaného rozsahu. Systematicky a robustne sme porovnali šestnásť metód prevzorkovania nad osemnástimi datasetmi s nevyváženým pomerom tried a zhrnuli sme výsledky v tejto práci. Výsledky ukazujú, že metódy prevzorkovania prekonali väčšinu metód podvzorkovania z hľadiska výkonu aj času predspracovania. 1
Learning from imbalanced data has been a research topic studied for many years. There are two main approaches used today - data-level and algorithm- level methods. We set out to study resampling methods which belong to the category of data-level methods. These methods modify the training part of a dataset as opposed to algorithm-level methods, which modify a classifier itself. Resampling methods are further divided into oversampling and un- dersampling methods. It is challenging to know which group of methods performs better and which algorithms stand out the most. We conducted an experiment of unseen scale. We systematically and robustly compared sixteen preprocessing methods over eighteen imbalanced datasets and sum- marised the results in this thesis. The results show that oversampling meth- ods outperformed most undersampling methods in both performance and preprocessing time. 1
