A study of applying copulas in data mining
Dobývání znalostí z dat pomocí kopulí
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/55292Identifiers
Study Information System: 134840
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Hauzar, David
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Theoretical Computer Science
Department
Department of Theoretical Computer Science and Mathematical Logic
Date of defense
15. 5. 2013
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
data mining, vztahy mezi atributy, pravděpodobnostní vztahy, kopule, typy kopulíKeywords (English)
data mining, relationships between attributes, probabilistic relationships, copulas, kinds of copulasNázev práce: Dobývání znalostí z dat pomocí kopulí Autor: Martin Ščavnický Katedra: Katedra teoretické informatiky a matematické logiky Vedoucí diplomové práce: RNDr. Ing. Martin Holeňa CSc., Katedra teoretické informatiky a matematické logiky Abstrakt: Kopule jsou funkce, které popisují vztah mezi sdruženým roz- dělením náhodného vektoru a jeho marginály. Kopule umožňují modelo- vat vícerozměrná rozdělení a jsou hojně využívány ve finančnictví a zk- oumány v dobývání znalostí. V praxi existuje mnoho různých rodin kopulí, ale žádný standardní spůsob, jak vybrat tu správnou. V naší práci se zabýváme porovnáním vhodnosti různych rodin kopulí k dobývaní znalostí. Prokládáme klasifikační data pomoci osmi rodin kopulí a porovnáváme je pomocí tří metrik kvality proložení. Také používáme klasifikační algorit- mus založený na kopulích a porovnáváme jeho přesnost pro různé rodiny kopulí. Výsledky naznačují, že eliptické kopule popisují naše data nejlépe, ale v přesnosti klasifikace jsou s nimi porovnatelné hierarchické Archime- dovské kopule. V práci také navrhujeme a testujeme modifikovanou metodu pro modelování dat pomocí hierarchických Archimedovských kopulí, která je schopna lépe popsat některá data...
Title: A study of applying copulas in data mining Author: Martin Ščavnický Department: Department of Theoretical Computer Science and Mathe- matical Logic Supervisor: RNDr. Ing. Martin Holeňa CSc., Department of Theoretical Computer Science and Mathematical Logic Abstract: Copulas are functions that describe the relationship between a multivariate distribution function and its marginals. They provide a way to model multivariate distribution functions, and are extensively used in finance and studied in data mining. In practice, there are many different copula families and no standard way for choosing the right one. In our work, we compare suitability of different copula families in data mining. We fit classification data using 8 copula families and compare them using 3 mea- sures of fit. We also use a classification algorithm based on copulas and compare its accuracy for different copula families. The results indicate that elliptical copulas fit our data better, but hierarchical Archimedean copulas give comparable accuracy in the classification. We also propose and test a modified method for modelling data using hierarchical Archimedean copu- las, which fits some datasets with negative dependence between attributes better. Based on this modified method, we propose a visualization of depen- dence in data and observe...