Přibližná shoda znakových řetězců a její aplikace na ztotožňování metadat vědeckých publikací
Approximate equality of character strings and its application to record linkage in metadata of scientific publications
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/118610Identifikátory
SIS: 211396
Kolekce
- Kvalifikační práce [25212]
Autor
Vedoucí práce
Oponent práce
Ivánek, Jiří
Fakulta / součást
Filozofická fakulta
Obor
Informační studia a knihovnictví
Katedra / ústav / klinika
Ústav informačních studií a knihovnictví
Datum obhajoby
8. 6. 2020
Nakladatel
Univerzita Karlova, Filozofická fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
ztotožňování záznamů|přibližná shoda znakových řetězců|deduplikace|fuzzy matching|zpracování a klasifikace dat|správa databází|metadata publikacíKlíčová slova (anglicky)
record matching|approximate string matching|deduplication|fuzzy matching|data processing and classification|database management|publication metadataPráce zkoumá použití přibližné shody znakových řetězců v procesu ztotožňování metadat vědeckých publikací. V teoretické části je poskytnut úvod do problematiky, popsán proces ztotožňování záznamů a pět používaných metrik pro vyjádření podobnosti znakových řetězců (Levenshteinova vzdálenost, Jarova vzdálenost, Jaro-Winklerova vzdálenost, kosinová vzdálenost q-gramů a Jaccardův koeficient). V praktické části je zkoumána možnost použití těchto metrik v systému V3S pro evidenci vědeckých publikací na ČVUT a jejich porovnání. Na trénovací množině byla potvrzena vhodnost využití v systému V3S a stanoveny optimální prahy pro jednotlivé metriky ma základě měr F1, F2 a F3.
The thesis explores the application of approximate string matching in scientific publication record linkage process. An introduction to record matching along with five commonly used metrics for string distance (Levenshtein, Jaro, Jaro-Winkler, Cosine distances and Jaccard coefficient) are provided. These metrics are applied on publication metadata from V3S current research information system of the Czech Technical University in Prague. Based on the findings, optimal thresholds in the F1, F2 and F3-measures are determined for each metric.
