Efektivní implementace metod pro redukci dimenze v mnohorozměrné statistice
Efficient implementation of dimension reduction methods for high-dimensional statistics
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/81250Identifiers
Study Information System: 150849
Collections
- Kvalifikační práce [10932]
Author
Advisor
Referee
Hnětynková, Iveta
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Numerical and computational mathematics
Department
Department of Numerical Mathematics
Date of defense
11. 9. 2015
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
klasifikace, redukce dimenze, singulární kovarianční matice, vysoce dimenzionální statistikaKeywords (English)
classification, dimension reduction, singular covariance matrix, high-dimensional statisticsV naší práci si klademe za cíl především zefektivnit implementaci klasifikační metody, která se nazývá lineární diskriminační analýza. Jde o model mnohorozměrné statistiky, který má na základě určitého množství vzorků a jejich příslušnosti k určité skupině zařadit do skupiny vzorek nový. Zaměřujeme se zejména na její vysoce dimenzionální verzi, což znamená, že množství vstupních parametrů je tak velké, že převyšuje počet vzorků a v důsledku toho úloha vede na singulární kovarianční matici. Pro příliš velká data mohou být běžně užívané metody prakticky nepoužitelné z důvodu vysokých výpočetních nákladů. Z toho důvodu nahlížíme na téma z pohledu numerické lineární algebry a vzniklé úlohy upravujeme na jejich ekvivalentní formulaci s mnohem nižší dimenzí. Nabízíme tak nové způsoby řešení, k tomu poskytujeme příklady konkrétních algoritmů a diskutujeme jejich efektivitu. Powered by TCPDF (www.tcpdf.org)
The main goal of our thesis is to make the implementation of a classification method called linear discriminant analysis more efficient. It is a model of multivariate statistics which, given samples and their membership to given groups, attempts to determine the group of a new sample. We focus especially on the high-dimensional case, meaning that the number of variables is higher than number of samples and the problem leads to a singular covariance matrix. If the number of variables is too high, it can be practically impossible to use the common methods because of the high computational cost. Therefore, we look at the topic from the perspective of numerical linear algebra and we rearrange the obtained tasks to their equivalent formulation with much lower dimension. We offer new ways of solution, provide examples of particular algorithms and discuss their efficiency. Powered by TCPDF (www.tcpdf.org)