Indexing Arbitrary Similarity Models
Indexovanie podobnostných modelov
dissertation thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/63156Identifiers
Study Information System: 84815
Collections
- Kvalifikační práce [10932]
Author
Advisor
Referee
Bustos, Benjamin
Dohnal, Vlastislav
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Software Engineering
Date of defense
22. 9. 2014
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Pass
Keywords (Czech)
podobnostné vyhľadávanie a indexovanie, metrické a nemetrické prístupové metódy, symbolická regresia, genetické programovanie, simdexKeywords (English)
indexing similarity models, metric and nonmetric access methods, symbolic regression, genetic programming, simdexCharakteristika výkonu podobnostného vyhľadávania v neštruktúrovaných databázach záleží od použitého podobnostného modelu. Vlastnosti metrických priestorov nám umožňujú efektívne indexovať dáta pomocou tzv. metrických prístupových metód. Ale pre prípad nemetrických priestorov, ktoré sú typické pre multimediálne, medicínske a vedecké databázy, a v ktorých neplatia axiómy metrických priestorov, zatiaľ nepoznáme všeobecné riešenie. Na základe úspešnej aplikácie ptolemaického modelu indexovania, predstavujeme SIMDEX Framework, univerzálny nástroj, ktorý dokáže objaviť alternatívne metódy indexácie dát za účelom efektívneho podobnostného vyhľadávania pre ľubovoľný podobnostný model. Na pozadí prehľadáva priestor platných axióm tak, aby našiel nové techniky určené pre indexovanie databáz. Preskúmame všetky existujúce varianty (prostý I-SIMDEX; GP-SIMDEX a PGP-SIMDEX využívajúce genetické programovanie) a zhodnotíme ich prínos a použitie v praxi pre profesionálov v rozličných doménach. Nakoniec opíšeme konkrétnu aplikáciu SIMDEX Framework-u v praxi na vytvorenie indexu Smart Pivot Table s pokročilým filtrovaním pre metrické priestory (Triangle+ filtering) spoločne s technikou na zlepšovanie kvality filtrovania (LowerBound Tightening). Vo všetkých prípadoch uvádzame aj experimentálne vyhodnotenie a porovnanie...
The performance of similarity search in the unstructured databases largely depends on the employed similarity model. The properties of metric space model enable indexing the data with metric access methods efficiently. But for unconstrained or nonmetric similarity models typical for multimedia, medical, or scientific databases, in which metric postulates do not hold, there exists no general solution so far. Motivated by the successful application of Ptolemaic indexing to the image retrieval, we introduce SIMDEX Framework which is a universal framework that is capable of revealing alternative indexing methods that will serve for efficient yet effective similarity searching for any similarity model. It explores the axiom space in order to discover novel techniques suitable for database indexing. We review all existing variants (simple I-SIMDEX; GP-SIMDEX and PGP-SIMDEX which both use genetic programming) and we outline how the different groups of domain researchers can benefit from them. We also describe a real application of SIMDEX Framework to practice while building the Smart Pivot Table indexing method together with advanced Triangle+ filtering for metric spaces empowered by LowerBound Tightening technique. At all cases, we provide extensive experimental evaluations of mentioned techniques. Powered by...