Tree-based indexing methods for similarity search in metric and nonmetric spaces
Stromové indexační metody pro podobnostní vyhledávání
rigorous thesis (RECOGNIZED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/33216Identifiers
Study Information System: 94962
Collections
- Kvalifikační práce [10150]
Author
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software systems
Department
Department of Software Engineering
Date of defense
23. 11. 2010
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Recognized
Název: Stromové indexační metody pro podobnostní vyhledávání v metrických a nemetrických prostorech Autor: Mgr. Jakub Lokoč Katedra: Katedra softwarového inženýrství Matematicko-fyzikální fakulta Univerzita Karlova v Praze Školitel: Doc. RNDr. Tomáš Skopal, Ph.D. Email autora: lokoc@ksi.mff.cuni.cz Email školitele: skopal@ksi.mff.cuni.cz Abstrakt: M-strom je dnes již klasická indexační metoda používaná pro efektivní podobnostní vyhledávání v metrických prostorech. Ačkoliv M- strom již nepatří mezi nejnovější metody, věříme, že stále nabízí zatím neob- jevený potenciál. V této práci se proto zaměřujeme na způsoby, jak vylepšit jeho původní algoritmy a strukturu. Abychom umožnili rychlejší zpracování dotazů pomocí M-stromu, navrhli jsme několik nových metod jeho konstrukce (i paralelních), které vedou k vytváření kompaktnějších metrických hierar- chií a přitom nejsou extrémně drahé. Dále jsme ukázali snadný způsob, jak rozšířit M-strom na novou indexační metodu NM-strom, která slouží k efektivnímu nemetrickému podobnostnímu vyhledávání za pomocí algo- ritmu TriGen. Všechna tato experimentálně ověřená vylepšení prokazují, že můžeme M-strom stále ještě považovat za důležitou dynamickou met-...
Title: Tree-based Indexing Methods for Similarity Search in Metric and Nonmetric Spaces Author: Mgr. Jakub Lokoč Department: Department of Software Engineering Faculty of Mathematics and Physics Charles University in Prague Supervisor: Doc. RNDr. Tomáš Skopal, Ph.D. Author's e-mail address: lokoc@ksi.mff.cuni.cz Supervisor's e-mail address: skopal@ksi.mff.cuni.cz Abstract: The M-tree is a well-known indexing method enabling efficient similarity search in metric spaces. Although the M-tree is an aging method nowadays, we believe it still offers an undiscovered potential. We present sev- eral approaches and directions that show how the original M-tree algorithms and structure can be improved. To allow more efficient query processing by the M-tree, we propose several new methods of (parallel) M-tree construction that achieve more compact M-tree hierarchies and preserve acceptable con- struction cost. We also demonstrate that the M-tree can be simply extended to a new indexing method - the NM-tree, which allows efficient nonmetric similarity search by use of the TriGen algorithm. All these experimentally verified improvements show that the M-tree can still be regarded as an im- portant dynamic metric access method suitable for management of large collections of unstructured data. Moreover, all the improvements can be...