Indexing Arbitrary Similarity Models
Indexovanie podobnostných modelov
dizertační práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/63156Identifikátory
SIS: 84815
Kolekce
- Kvalifikační práce [10926]
Autor
Vedoucí práce
Oponent práce
Bustos, Benjamin
Dohnal, Vlastislav
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
22. 9. 2014
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Prospěl/a
Klíčová slova (česky)
podobnostné vyhľadávanie a indexovanie, metrické a nemetrické prístupové metódy, symbolická regresia, genetické programovanie, simdexKlíčová slova (anglicky)
indexing similarity models, metric and nonmetric access methods, symbolic regression, genetic programming, simdexCharakteristika výkonu podobnostného vyhľadávania v neštruktúrovaných databázach záleží od použitého podobnostného modelu. Vlastnosti metrických priestorov nám umožňujú efektívne indexovať dáta pomocou tzv. metrických prístupových metód. Ale pre prípad nemetrických priestorov, ktoré sú typické pre multimediálne, medicínske a vedecké databázy, a v ktorých neplatia axiómy metrických priestorov, zatiaľ nepoznáme všeobecné riešenie. Na základe úspešnej aplikácie ptolemaického modelu indexovania, predstavujeme SIMDEX Framework, univerzálny nástroj, ktorý dokáže objaviť alternatívne metódy indexácie dát za účelom efektívneho podobnostného vyhľadávania pre ľubovoľný podobnostný model. Na pozadí prehľadáva priestor platných axióm tak, aby našiel nové techniky určené pre indexovanie databáz. Preskúmame všetky existujúce varianty (prostý I-SIMDEX; GP-SIMDEX a PGP-SIMDEX využívajúce genetické programovanie) a zhodnotíme ich prínos a použitie v praxi pre profesionálov v rozličných doménach. Nakoniec opíšeme konkrétnu aplikáciu SIMDEX Framework-u v praxi na vytvorenie indexu Smart Pivot Table s pokročilým filtrovaním pre metrické priestory (Triangle+ filtering) spoločne s technikou na zlepšovanie kvality filtrovania (LowerBound Tightening). Vo všetkých prípadoch uvádzame aj experimentálne vyhodnotenie a porovnanie...
The performance of similarity search in the unstructured databases largely depends on the employed similarity model. The properties of metric space model enable indexing the data with metric access methods efficiently. But for unconstrained or nonmetric similarity models typical for multimedia, medical, or scientific databases, in which metric postulates do not hold, there exists no general solution so far. Motivated by the successful application of Ptolemaic indexing to the image retrieval, we introduce SIMDEX Framework which is a universal framework that is capable of revealing alternative indexing methods that will serve for efficient yet effective similarity searching for any similarity model. It explores the axiom space in order to discover novel techniques suitable for database indexing. We review all existing variants (simple I-SIMDEX; GP-SIMDEX and PGP-SIMDEX which both use genetic programming) and we outline how the different groups of domain researchers can benefit from them. We also describe a real application of SIMDEX Framework to practice while building the Smart Pivot Table indexing method together with advanced Triangle+ filtering for metric spaces empowered by LowerBound Tightening technique. At all cases, we provide extensive experimental evaluations of mentioned techniques. Powered by...