Comparison of Tree Edit Distance Algorithms
Comparison of Tree Edit Distance Algorithms
bachelor thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/42050Identifiers
Study Information System: 72792
Collections
- Kvalifikační práce [10932]
Author
Advisor
Referee
Lokoč, Jakub
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Department of Software Engineering
Date of defense
6. 9. 2012
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Good
Keywords (Czech)
XML, Tree Edit Distance, XML schema, podobnostKeywords (English)
XML, Tree Edit Distance, XML schema, similarityCílem této práce je srovnání Tree Edit Distance metod v rámci zjišťování strukturální podobnosti mezi XML Schema dokumenty. Tyto metody vyhledávají minimální počet editačních operací, pomocí kterých jeden strom je převáděn na druhý. Zanalyzovali a implementovali jsme celou řadu existujících Tree Edit Distance algoritmů. Je důležité si uvědomit, že vzdálenost počítána algoritmy je ovlivněna množinou použitých editačních operací proto kvalita při odhalování XML Schema podobnost se liší v každém postupů. První část této práce obsahuje popis použitých postupů a potřebné zápisy. Druhá část obsahuje detaily implementace a analýzu popsaných metod, která sestává teoretické analýzy a porovnávání výsledků běhů nad reálnými i syntetickými XML daty. Výsledná implementace je k dispozici ve formě Java aplikace.
The aim of this thesis is the comparison of the Tree Edit Distance methods, in the context of detecting structural similarity between two XML Schema documents. The methods search the minimum number of edit operations leading from one tree to another. We have analysed and implemented a wide range of the existing tree edit distance approaches. It is important to understand that the distance computed by the algorithms is affected by the set of used edit operations, therefore the strength in detecting XML Schema similarity differs in each approach. The first part of this work contains the description of the used approaches and necessary notations. The second part provides implementation details and analysis of the described methods, which consists of theoretical comparison and empirical evaluation on real and synthetic xml data. The resulting implementation is available in the form of Java SE application.