Velké citační databáze v kontextu Benfordova zákona
Great citation databases in context of Benford law
dizertační práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/205246Identifikátory
SIS: 228335
Kolekce
- Kvalifikační práce [24991]
Autor
Vedoucí práce
Oponent práce
Šušol, Jaroslav
Kliegr, Tomáš
Fakulta / součást
Filozofická fakulta
Obor
Informační věda
Katedra / ústav / klinika
Ústav informačních studií - studia nových médií
Datum obhajoby
29. 9. 2025
Nakladatel
Univerzita Karlova, Filozofická fakultaJazyk
Čeština
Známka
Prospěl/a
Klíčová slova (česky)
Benfordův zákon|scientometrie|citační data|bibliometrieKlíčová slova (anglicky)
Benford's Law|scientometrics|citation data|bibliometricsCílem předložené práce bylo ověřit platnost Benfordova zákona v počtech citací nad velkými datasety ze tří citačních databází. Z těchto databází byly staženy datasety o velikosti více než 112 milionů záznamů za desetileté období roků vydání. Nad daty bylo provedeno 36 typů analýz, kterými byla nejen ověřena platnost Benfordova zákona v počtech citací datasetů z jednotlivých databází, ale také byly zjištěny trendy v míře konformity počtů citací s Benfordovým zákonem a rozdíly v konformitách mezi typy dokumentů a obory. Pro potřeby vyjádření míry konformity prvních signifikantních číslic počtů citací s Benfordovým zákonem v 36 typech analýz byly použity metriky MAD (Mean Absolute Deviation) a SSD (Sum Square Deviation). Dále byla metodologie obohacena o metriku KLD (Kullback-Liebler Divergence) u které byly stanoveny hranice pro zařazení do úrovní konformity pro datasety počtů citací. Poslední použitou metrikou je optimální β parametr takzvaného zobecněného Benfordova zákona, který reflektuje nejen vzdálenost počtů citací od základního Benfordova zákona, ale také vyjadřuje "natočení" počtů citací vůči distribuci pravděpodobností dle základního Benfordova zákona. Výsledky ukazují na platnost Benfordova zákona v počtech citací, ačkoliv shoda distribucí není perfektní. Mezi typy dokumentů se nachází...
The aim of this study was to verify the validity of Benford's Law in the number of citations in large datasets from three citation databases. Datasets containing more than 112 million records for a ten-year period of publication were downloaded from these databases. Thirty- six types of analyses were performed on the data, which not only verified the validity of Benford's Law in the number of citations in datasets from individual databases, but also identified trends in the level of conformity of citation counts with Benford's Law and differences in conformities between document types and fields. To express the level of conformity of the first significant digits of the number of citations with Benford's Law in thirty-six types of analyses, the MAD (Mean Absolute Deviation) and SSD (Sum Square Deviation) metrics were used. Furthermore, the methodology was enriched with the KLD (Kullback-Liebler Divergence) metric, for which thresholds were set for classification into conformity levels for the number of citations datasets. The last metric used is the optimal β parameter, which not only reflects the distance of the number of citations from Benford's law, but also expresses the "rotation" of this type of data relative to the probability distribution according to Benford's Law. The results indicate the...
