Velké citační databáze v kontextu Benfordova zákona
Great citation databases in context of Benford law
dissertation thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/205246Identifiers
Study Information System: 228335
Collections
- Kvalifikační práce [25011]
Author
Advisor
Referee
Šušol, Jaroslav
Kliegr, Tomáš
Faculty / Institute
Faculty of Arts
Discipline
Information Science
Department
Institute of Information Studies and Librarianship - New Media Studies
Date of defense
29. 9. 2025
Publisher
Univerzita Karlova, Filozofická fakultaLanguage
Czech
Grade
Pass
Keywords (Czech)
Benfordův zákon|scientometrie|citační data|bibliometrieKeywords (English)
Benford's Law|scientometrics|citation data|bibliometricsCílem předložené práce bylo ověřit platnost Benfordova zákona v počtech citací nad velkými datasety ze tří citačních databází. Z těchto databází byly staženy datasety o velikosti více než 112 milionů záznamů za desetileté období roků vydání. Nad daty bylo provedeno 36 typů analýz, kterými byla nejen ověřena platnost Benfordova zákona v počtech citací datasetů z jednotlivých databází, ale také byly zjištěny trendy v míře konformity počtů citací s Benfordovým zákonem a rozdíly v konformitách mezi typy dokumentů a obory. Pro potřeby vyjádření míry konformity prvních signifikantních číslic počtů citací s Benfordovým zákonem v 36 typech analýz byly použity metriky MAD (Mean Absolute Deviation) a SSD (Sum Square Deviation). Dále byla metodologie obohacena o metriku KLD (Kullback-Liebler Divergence) u které byly stanoveny hranice pro zařazení do úrovní konformity pro datasety počtů citací. Poslední použitou metrikou je optimální β parametr takzvaného zobecněného Benfordova zákona, který reflektuje nejen vzdálenost počtů citací od základního Benfordova zákona, ale také vyjadřuje "natočení" počtů citací vůči distribuci pravděpodobností dle základního Benfordova zákona. Výsledky ukazují na platnost Benfordova zákona v počtech citací, ačkoliv shoda distribucí není perfektní. Mezi typy dokumentů se nachází...
The aim of this study was to verify the validity of Benford's Law in the number of citations in large datasets from three citation databases. Datasets containing more than 112 million records for a ten-year period of publication were downloaded from these databases. Thirty- six types of analyses were performed on the data, which not only verified the validity of Benford's Law in the number of citations in datasets from individual databases, but also identified trends in the level of conformity of citation counts with Benford's Law and differences in conformities between document types and fields. To express the level of conformity of the first significant digits of the number of citations with Benford's Law in thirty-six types of analyses, the MAD (Mean Absolute Deviation) and SSD (Sum Square Deviation) metrics were used. Furthermore, the methodology was enriched with the KLD (Kullback-Liebler Divergence) metric, for which thresholds were set for classification into conformity levels for the number of citations datasets. The last metric used is the optimal β parameter, which not only reflects the distance of the number of citations from Benford's law, but also expresses the "rotation" of this type of data relative to the probability distribution according to Benford's Law. The results indicate the...
