Porovnání metod získávání znalostí z dat
Comparing methods of knowledge discovery from data
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/105506Identifiers
Study Information System: 158938
CU Catalogue: 990022273550106986
Collections
- Kvalifikační práce [25218]
Author
Advisor
Referee
Dvořák, Jan
Faculty / Institute
Faculty of Arts
Discipline
Information and Library Studies
Department
Institute of Information Studies and Librarianship
Date of defense
21. 1. 2019
Publisher
Univerzita Karlova, Filozofická fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
dobývání znalostí z databází|data mining|strojové učení|statistika|datová analýza|získávání znalostíKeywords (English)
knowledge mining from databases|data mining|machine learning|statistics|data analysis|knowledge acquisition(česky) Diplomová práce se zabývá porovnáním některých metod dobývání znalostí z dat. Na vzorku dat se aplikovaly metody rozhodovacího stromu, klasifikačních pravidel, shlukové analýzy a naivního bayesovského klasifikátoru. Pracovalo se s daty o klientech neziskové organizace Asociace občanských poraden. Postupovalo se podle technologického procesu dobývání znalostí, proběhl popis dat, předzpracování dat, data mining (modelování) a otestování a interpretace výsledků. Vzhledem k aplikaci na shodný vzorek dat, s podobným předzpracováním dat, se dalo očekávat, že část výsledků by mohla být rovněž odpovídající. Zjišťoval se nejen překryv výsledků, ale i jejich rozdíly. Zjišťovalo se, jaké charakteristiky mají klienti podle jejich výše dluhu. Výsledky opravdu ukázaly některé vzory opakující se ve většině metod. Vyšlo najevo, že výše dluhu klienta souvisí s počtem věřitelů klienta. Čím větší počet věřitelů, tím spíše má klient vyšší dluhy. U klientů s větším dluhem se také objevovala vyšší celková výše závazků. Toto zřejmě nejsou nijak překvapivé závěry, avšak dokazují funkčnost modelů a porovnatelnost výsledků.
(in English): The thesis is devoted to the comparison of a few methods of mining knowledge from data. Methods decision tree, classification rules, cluster analysis, and Naive Bayes classifier were applied to the data sample. Data about clients of a non-profit organization Association of Civil Counseling were used. It has been worked according to the technological process of knowledge mining. In the thesis was applied data description, data preparation, modeling and testing and results from interpretation. Because of using the same sample of data and similar data preparation, overlapping results are also expected. The research is focused not only on results similarity, but also differences in results. The correlation between the amount of debt of clients and other attributes was found. In the results, there really were some patterns repeating through most of all methods. It turned out the amount of debt is related to a number of creditors. The more creditors, the higher amount of debt. Clients with a higher amount of liabilities had also higher debt. The results might not be surprising, but it proves the functionality of models and comparability of results.
