Modifikace metody Pivot Tables pro perzistentní metrické indexování
Modification of Pivot Tables method for persistent metric indexing
Modifikace metody Pivot Tables pro perzistentní metrické indexování
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/31430Identifiers
Study Information System: 84219
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Hoksza, David
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Software Engineering
Date of defense
30. 5. 2011
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Slovak
Grade
Very good
Keywords (Czech)
podobnostné vyhľadávanie, metrické prístupové metódy, indexovanie, M-strom, pivot tablesKeywords (English)
similarity search, metric access methods, indexing, M-tree, pivot tablesMetrická prístupová metóda pivot tables je jedna z najefektívnejších metód podobnostného vyhľadávania optimalizovaná na počet výpočtov vzdialeností medzi indexovanými objektmi. V tejto práci bola navrhnutá modifikácia metódy pivot tables, ktorá je navyše optimalizovaná aj na počet I/O operácií. Navrhnutá metóda Clustered pivot tables indexuje zhluky podobných objektov, ktoré boli vytvorené pomocou ďalšej metrickej prístupovej metódy - M-stromu. Indexovanie zhlukov podobných objektov prináša pozitívny efekt do vyhľadávania v indexovanej databáze, keď objekty z jedného zhluku sú uložené v stránke v sekundárnej pamäti, ktorá nemusí byť vôbec načítaná, ak daný zhluk dát neodpovedá príslušnému dotazu. Nerelevantné objekty tak nie sú zbytočne načítané zo sekundárnej pamäti, čím sa znižuje počet I/O operácií a celkový objem prenesených dát. Korektnosť daného prístupu bola experimentálne dokázaná a výsledky navrhovanej metódy bola porovnané s vybranými metrickými prístupovými metódami.
The pivot tables is one of the most effective metric access method optimized for a number of distance computations in similarity search. In this work the new modification of the pivot tables method was proposed that is besides distance computations optimized also for a number of I/O operations. Proposed Clustered pivot tables method is indexing clusters of similar objects that were created by another metric access method - the M-tree. The indexing of clustered objects has a positive effect for searching within indexed database. Whereas the clusters are paged in second memory, page containing such cluster, which do not satisfy particular query, is not accessed in second memory at all. Non-relevant objects, that are out of the query range, are not loaded into memory, what has the effect of decreasing number of I/O operations and total volume of transferred data. The correctness of proposed approach was experimentally proved and experimental results of proposed method was compared to selected metric access methods.