Tree-based indexing methods for similarity search in metric and nonmetric spaces

Lokoč, Jakub

Stromové indexační metody pro podobnostní vyhledávání v metrických a nemetrických prostorech

dizertační práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (43.00Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/34984

Identifikátory

SIS: 44747

Katalog UK: 990013897140106986

Oponent práce

Dohnal, Vlastislav

Patella, Marco

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Softwarové systémy

Katedra / ústav / klinika

Katedra softwarového inženýrství

Datum obhajoby

3. 9. 2010

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Prospěl/a

M-strom je dnes již klasická indexační metoda používaná pro efektivní podobnostní vyhledávání v metrických prostorech. Ačkoliv M-strom již nepatří mezi nejnovější metody, věříme, že stále nabízí zatím neobjevený poteciál. V této práce sr proto zaměřujeme na způsoby, jak vylepšit jeho původní algoritmy a strukturu. Abychom umožnili rychlejší zpracování dtazů pomocí M-stromu, navrhli jsme několik nových metod jeho konstrukce (i paralelních), které vedou k vytváření kompaktnějších metrických hierarchií a přitom nejsou extrémně drahé. Dále jsme ukázali snadný způsob, jak rozšířit M-strom na novou indexační metodu NM-strom, která slouží k efektivnímu nemetrickému podonostnímu vyhledávání za pomocí algoritmu TriGen. Všechna tato experimentálně ověřená vyplepšení prokazují, že můžeme M-strom stále ještě považovat za důležitou dynamickou metrickou přístupovou metodu vhodnou pro správu rozsáhlých kolekcí nestrukturovaných dat. Všechna prezentovaná vylepšení mohou být navíc implementována do následníků M-stromu (např. do PM-stromu), což otevírá dveře pro další výzkum v této oblasti.

Abstrakt (anglicky)

The M-tree is a well-known indexing method enabling efficient similarity search in metric spaces. Although the M-tree is an aging method nowadays, we believe it still offers an undiscovered potential. We present several approaches and directions that show how the original M-tree algorithms and structure can be improved. To allow more efficient query processing by the M-tree, we propose several new methods of (parallel) M-tree construction that achieve more compact M-tree hierarchies and preserve acceptable construction cost. We also demonstrate that the M-tree can be simply extended to a new indexing method - the NM-tree, which allows efficient nonmetric similarity search by use of the TriGen algorithm. All these experimentally verified improvements show that the M-tree can still be regarded as an important dynamic metric access method suitable for management of large collections of unstructured data. Moreover, all the improvements can be further adopted by M-tree descendants (e.g. the PM-tree), so that the results presented in this thesis open the door for future research in this area.

Citace dokumentu

Metadata

Zobrazit celý záznam