Přibližná shoda znakových řetězců a její aplikace na ztotožňování metadat vědeckých publikací
Approximate equality of character strings and its application to record linkage in metadata of scientific publications
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/118610Identifiers
Study Information System: 211396
Collections
- Kvalifikační práce [23975]
Author
Advisor
Referee
Ivánek, Jiří
Faculty / Institute
Faculty of Arts
Discipline
Information and Library Studies
Department
Institute of Information Studies and Librarianship
Date of defense
8. 6. 2020
Publisher
Univerzita Karlova, Filozofická fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
ztotožňování záznamů|přibližná shoda znakových řetězců|deduplikace|fuzzy matching|zpracování a klasifikace dat|správa databází|metadata publikacíKeywords (English)
record matching|approximate string matching|deduplication|fuzzy matching|data processing and classification|database management|publication metadataPráce zkoumá použití přibližné shody znakových řetězců v procesu ztotožňování metadat vědeckých publikací. V teoretické části je poskytnut úvod do problematiky, popsán proces ztotožňování záznamů a pět používaných metrik pro vyjádření podobnosti znakových řetězců (Levenshteinova vzdálenost, Jarova vzdálenost, Jaro-Winklerova vzdálenost, kosinová vzdálenost q-gramů a Jaccardův koeficient). V praktické části je zkoumána možnost použití těchto metrik v systému V3S pro evidenci vědeckých publikací na ČVUT a jejich porovnání. Na trénovací množině byla potvrzena vhodnost využití v systému V3S a stanoveny optimální prahy pro jednotlivé metriky ma základě měr F1, F2 a F3.
The thesis explores the application of approximate string matching in scientific publication record linkage process. An introduction to record matching along with five commonly used metrics for string distance (Levenshtein, Jaro, Jaro-Winkler, Cosine distances and Jaccard coefficient) are provided. These metrics are applied on publication metadata from V3S current research information system of the Czech Technical University in Prague. Based on the findings, optimal thresholds in the F1, F2 and F3-measures are determined for each metric.