Analýza chýbajúcich hodnot: porovnávanie vhodnosti tradičných metód naprieč mechanizmami
Analysis of Missing Data: Comparing Performance of Traditional Methods across Mechanisms
Analýza chybějících hodnot: porovnání vhodnosti tradičních metod napříč mechanismy
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/72183Collections
- Kvalifikační práce [12363]
Author
Advisor
Referee
Hendl, Jan
Faculty / Institute
Faculty of Social Sciences
Discipline
Sociology
Department
Department of Sociology
Date of defense
17. 9. 2014
Publisher
Univerzita Karlova, Fakulta sociálních vědLanguage
Slovak
Grade
Excellent
Keywords (Czech)
chýbajúce hodnoty, mechanizmy chýbajúcich hodnôt, metódy založené na vynechávaní prípadov, metódy nahrádzania,simulácie,vychýlenie, štatistické usudzovanie
Keywords (English)
missing data, missing data mechanisms, deletion methods, imputation methods,simulations, bias, statistical inference
Cieľom tejto diplomovej práce je vyhodnotiť rozličné metódy práce s chýbajúcimi hodnotami pri analýze dát. Diplomová práca je rozdelená do troch hlavných kapitol. Prvá kapitola zhŕňa teoretickú literatúru o chýbajúcich hodnotách a zameriava sa primárne na mechanizmy chýbajúcich hodnôt. Druhá kapitola pojednáva o tradičných metódach práce s chýbajúcimi hodnotami používanými v sociologickom výskume. Tretia kapitola skúma úspešnosť týchto metód analyzovaním simulovaných dátových súborov pozostávajúcich z dvoch premenných (príjem, IQ). V rámci praktickej analýzy (tretia kapitola) sme prostredníctvom simulácie vytvorili chýbajúce hodnoty podľa troch mechanizmov (MCAR, MAR, NMAR) a variovali podiel chýbajúcich hodnôt pri týchto mechanizmoch (10%, 20%, 30%). Potom sme aplikovali štyri metódy práce s chýbajúcimi hodnotami: analýzu kompletných prípadov, nahrádzanie aritmetickým priemerom, nahrádzanie regresiou a nahrádzanie stochastickou regresiou. Účinnosť týchto metód bola pre každú experimentálnu podmienku skúmaná pri korelačnej a regresnej analýze. Výsledky realizovaných simulácií sú zväčša v súlade s existujúcou literatúrou venovanou problematike chýbajúcich hodnôt. V prípade mechanizmu NMAR viedli všetky skúmané metódy k vychýleným odhadom parametrov. V prípade mechanizmu MCAR viedla k nevychýleným...
The objective of this thesis is to evaluate different methods of dealing with missing values in data analysis. The thesis is divided into three major chapters. The first chapter summarizes the theoretical literature on missing data and focuses on missing data mechanisms in particular. The second chapter introduces traditional methods for addressing missing data in sociological research. The third chapter assesses the performance of these methods by analyzing simulated data sets for two variables (income, IQ). For practical analysis (chapter 3), we simulated missing data according to three different mechanisms (MCAR, MAR, NMAR) and varied the proportion of missing values under these mechanisms (10%, 20%, 30%). Then, we applied each of the following four methods of addressing missing values: complete-case analysis, arithmetic mean imputation, regression imputation, and stochastic regression imputation. In order to evaluate the performance of each of these methods we performed correlation and regression analyses for each experimental condition. The results of these simulations are largely in agreement with existing theoretical literature on the subject of missing data. In the case of NMAR, all solution methods provided biased parameter estimates. In the case of MCAR, only complete-case analysis and...