Porovnání metod získávání znalostí z dat

Jungmannová, Iva

Comparing methods of knowledge discovery from data

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (151.6Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/105506

Identifikátory

SIS: 158938

Katalog UK: 990022273550106986

Oponent práce

Dvořák, Jan

Fakulta / součást

Filozofická fakulta

Obor

Informační studia a knihovnictví

Katedra / ústav / klinika

Ústav informačních studií a knihovnictví

Datum obhajoby

21. 1. 2019

Nakladatel

Univerzita Karlova, Filozofická fakulta

Jazyk

Čeština

Známka

Výborně

Klíčová slova (česky)

Klíčová slova (anglicky)

(česky) Diplomová práce se zabývá porovnáním některých metod dobývání znalostí z dat. Na vzorku dat se aplikovaly metody rozhodovacího stromu, klasifikačních pravidel, shlukové analýzy a naivního bayesovského klasifikátoru. Pracovalo se s daty o klientech neziskové organizace Asociace občanských poraden. Postupovalo se podle technologického procesu dobývání znalostí, proběhl popis dat, předzpracování dat, data mining (modelování) a otestování a interpretace výsledků. Vzhledem k aplikaci na shodný vzorek dat, s podobným předzpracováním dat, se dalo očekávat, že část výsledků by mohla být rovněž odpovídající. Zjišťoval se nejen překryv výsledků, ale i jejich rozdíly. Zjišťovalo se, jaké charakteristiky mají klienti podle jejich výše dluhu. Výsledky opravdu ukázaly některé vzory opakující se ve většině metod. Vyšlo najevo, že výše dluhu klienta souvisí s počtem věřitelů klienta. Čím větší počet věřitelů, tím spíše má klient vyšší dluhy. U klientů s větším dluhem se také objevovala vyšší celková výše závazků. Toto zřejmě nejsou nijak překvapivé závěry, avšak dokazují funkčnost modelů a porovnatelnost výsledků.

Abstrakt (anglicky)

(in English): The thesis is devoted to the comparison of a few methods of mining knowledge from data. Methods decision tree, classification rules, cluster analysis, and Naive Bayes classifier were applied to the data sample. Data about clients of a non-profit organization Association of Civil Counseling were used. It has been worked according to the technological process of knowledge mining. In the thesis was applied data description, data preparation, modeling and testing and results from interpretation. Because of using the same sample of data and similar data preparation, overlapping results are also expected. The research is focused not only on results similarity, but also differences in results. The correlation between the amount of debt of clients and other attributes was found. In the results, there really were some patterns repeating through most of all methods. It turned out the amount of debt is related to a number of creditors. The more creditors, the higher amount of debt. Clients with a higher amount of liabilities had also higher debt. The results might not be surprising, but it proves the functionality of models and comparability of results.

Citace dokumentu

Metadata

Zobrazit celý záznam