Porovnání metod získávání znalostí z dat
Comparing methods of knowledge discovery from data
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/105506Identifikátory
SIS: 158938
Kolekce
- Kvalifikační práce [23974]
Autor
Vedoucí práce
Oponent práce
Dvořák, Jan
Fakulta / součást
Filozofická fakulta
Obor
Informační studia a knihovnictví
Katedra / ústav / klinika
Ústav informačních studií a knihovnictví
Datum obhajoby
21. 1. 2019
Nakladatel
Univerzita Karlova, Filozofická fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
dobývání znalostí z databází|data mining|strojové učení|statistika|datová analýza|získávání znalostíKlíčová slova (anglicky)
knowledge mining from databases|data mining|machine learning|statistics|data analysis|knowledge acquisition(česky) Diplomová práce se zabývá porovnáním některých metod dobývání znalostí z dat. Na vzorku dat se aplikovaly metody rozhodovacího stromu, klasifikačních pravidel, shlukové analýzy a naivního bayesovského klasifikátoru. Pracovalo se s daty o klientech neziskové organizace Asociace občanských poraden. Postupovalo se podle technologického procesu dobývání znalostí, proběhl popis dat, předzpracování dat, data mining (modelování) a otestování a interpretace výsledků. Vzhledem k aplikaci na shodný vzorek dat, s podobným předzpracováním dat, se dalo očekávat, že část výsledků by mohla být rovněž odpovídající. Zjišťoval se nejen překryv výsledků, ale i jejich rozdíly. Zjišťovalo se, jaké charakteristiky mají klienti podle jejich výše dluhu. Výsledky opravdu ukázaly některé vzory opakující se ve většině metod. Vyšlo najevo, že výše dluhu klienta souvisí s počtem věřitelů klienta. Čím větší počet věřitelů, tím spíše má klient vyšší dluhy. U klientů s větším dluhem se také objevovala vyšší celková výše závazků. Toto zřejmě nejsou nijak překvapivé závěry, avšak dokazují funkčnost modelů a porovnatelnost výsledků.
(in English): The thesis is devoted to the comparison of a few methods of mining knowledge from data. Methods decision tree, classification rules, cluster analysis, and Naive Bayes classifier were applied to the data sample. Data about clients of a non-profit organization Association of Civil Counseling were used. It has been worked according to the technological process of knowledge mining. In the thesis was applied data description, data preparation, modeling and testing and results from interpretation. Because of using the same sample of data and similar data preparation, overlapping results are also expected. The research is focused not only on results similarity, but also differences in results. The correlation between the amount of debt of clients and other attributes was found. In the results, there really were some patterns repeating through most of all methods. It turned out the amount of debt is related to a number of creditors. The more creditors, the higher amount of debt. Clients with a higher amount of liabilities had also higher debt. The results might not be surprising, but it proves the functionality of models and comparability of results.