Využití data miningových metod při zpracování dat z demografických šetření
Using data mining methods for demographic survey data processing
diplomová práce (NEOBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/81217Identifikátory
SIS: 152281
Kolekce
- Kvalifikační práce [19114]
Autor
Vedoucí práce
Oponent práce
Kraus, Jaroslav
Fakulta / součást
Přírodovědecká fakulta
Obor
Demografie
Katedra / ústav / klinika
Katedra demografie a geodemografie
Datum obhajoby
15. 9. 2015
Nakladatel
Univerzita Karlova, Přírodovědecká fakultaJazyk
Čeština
Známka
Neprospěl
Klíčová slova (česky)
data mining, dolování znalostí z databází, statistická šetření, chybějící hodnoty, klasifikace, asociační pravidla, metoda GUHA, ACSKlíčová slova (anglicky)
data mining, knowledge discovery in databases, statistic surveys, missing values, classification, association rules, GUHA method, ACSVYUŽITÍ DATA MININGOVÝCH METOD PŘI ZPRACOVÁNÍ DAT Z DEMOGRAFICKÝCH ŠETŘENÍ Abstrakt Cílem předkládané práce bylo popsat a následně demonstrovat na modelové úloze principy procesu dolování znalostí z databází, často označovaného jako data mining (DM). V teoretické části práce jsou popsány vybrané metodiky, na základě kterých se postupuje při DM procesu a dále jsou zjednodušeně popsány principy vybraných DM technik. V druhé části práce je pak realizována DM úloha, ve které se postupuje dle metodiky CRISP-DM. Jako modelová data pro tuto úlohu jsou vybrána data z výběrového šetření American Community Survey. Praktická část práce je rozdělena na dvě části. V první části je vyhotovena klasifikační úloha, jejíž cílem je zjistit, zda lze využít vybrané DM techniky k řešení problematiky chybějících údajů ve statistických šetřeních. Úspěšnost klasifikace a následné predikce hodnot u vybraných atributů se pohybovala v intervalu 55-80 %. Druhá část praktické části práce je pak zaměřena na hledání zajímavých znalostí ve vybraných datech pomocí asociačních pravidel a metody GUHA. Klíčová slova: data mining, dolování znalostí z databází, statistická šetření, chybějící hodnoty, klasifikace, asociační pravidla, metoda GUHA, ACS
USING DATA MINING METHODS FOR DEMOGRAPHIC SURVEY DATA PROCESSING Abstract The goal of the thesis was to describe and demonstrate principles of the process of knowledge discovery in databases - data mining (DM). In the theoretical part of the thesis, selected methods for data mining processes are described as well as basic principles of those DM techniques. In the second part of the thesis a DM task is realized in accordance to CRISP-DM methodology. Practical part of the thesis is divided into two parts and data from the survey of American Community Survey served as the basic data for the practical part of the thesis. First part contains a classification task which goal was to determinate whether the selected DM techniques can be used to solve missing data in the surveys. The success rate of classifications and following data value prediction in selected attributes was in 55-80 % range. The second part of the practical part of the thesis was then focused of determining knowledge of interest using associating rules and the GUHA method. Keywords: data mining, knowledge discovery in databases, statistic surveys, missing values, classification, association rules, GUHA method, ACS