Cross-validation and its use in statistics
Kross-validace a její využití ve statistice
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/190559Identifikátory
SIS: 257148
Kolekce
- Kvalifikační práce [11242]
Autor
Vedoucí práce
Oponent práce
Hušková, Marie
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Pravděpodobnost, matematická statistika a ekonometrie se specializací Matematická statistika
Katedra / ústav / klinika
Katedra pravděpodobnosti a matematické statistiky
Datum obhajoby
10. 6. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
křížová validace|jádrové odhady hustoty|neparametrická jádrová regrese|lineární modelKlíčová slova (anglicky)
cross-validation|kernel density estimation|nonparametric kernel regression|linear modelV této práci je zkoumáno použití metod křížové validace v různých oblastech statistiky. Nejprve se zaměřujeme na použití tzv. metody leave-one-out cross-validation, CV(1), pro volbu vyhlazovacích parametrů v jádrovém odhadu hustoty a úlohách jádrové regrese. Teoretické výsledky jsou demonstrovány na simulovaných datech. Dále se zabýváme výběrem lineárního modelu s nejlepší predikční schopností. Dokážeme, že v kontextu lineárních modelů je vhodné použít CV(nv) místo metody CV(1), kde nv/n → 1 pro n → ∞. Použijeme studované metody na reálná data z parlamentních a prezi- dentských voleb, které proběhly v České republice v letech 2021 a 2023. 1
In this thesis, the use of cross-validation methods in different areas of statistics is studied. Firstly, the application of leave-one-out cross- validation, CV(1), for bandwidth selection in kernel density estimation and kernel regression tasks is considered. Theoretical findings are demonstrated on simulated data. Then, the selection of a linear model with the best predictive ability is explored. It is illustrated that, in the context of linear models, the use of CV(nv) instead of the leave-one-out approach is advisable, where nv/n → 1 as n → ∞. The studied methods are applied on real data from parliamentary and presidential elections in the Czech Republic in 2021 and 2023. 1