Statistické metody pro analýzu dat s chybějícími pozorováními
Statistical analysis of datasets with missing observations
diploma thesis (NOT DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/83121Identifiers
Study Information System: 140555
Collections
- Kvalifikační práce [11325]
Author
Advisor
Referee
Kulich, Michal
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Probability, mathematical statistics and econometrics
Department
Department of Probability and Mathematical Statistics
Date of defense
5. 9. 2016
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Fail
Práce se zabývá mechanismy chybějících dat a metodami, jak se s nimi vypořádat. Rozlišuje tři mechanismy chybějících dat - MCAR, MAR a MNAR. Jsou uvedeny dvě jednoduché metody používající vyřazování neúplných záznamů a ukázány jejich vlastnosti a nedostatky. Dále je popsán princip jedno- duchých imputací. Odvozeny a porovnány jsou EM algoritmus používající kla- sickou statistiku a algoritmus augmentace dat používající bayesovskou statistiku. Poslední metodou, které se práce věnuje, je mnohonásobná imputace. Některé odvozené metody jsou aplikovány na reálná data, nejdříve pro spojité veličiny a poté pro dvourozměrnou kontingenční tabulku. 1
Mechanisms of missing data and methods are described in this thesis. Three mechanisms are considered - MCAR, MAR, MNAR. Two simple methods using deletion of incomplete records are shown and their properties and shortcomings are demonstrated. Secondly, the principle of simple imputations is explained. EM algorithm which uses the classical statistics and the algorithm of data augmentation which uses Bayesian framework are derived and compared. The last method included in the thesis is the multiple imputation. The described methods are compared on real data set, first on continuous variables and then on a contingency table. 1