Index pro podobnostní vyhledávání ve vysokodimenzionálních prostorech
Index Suitable for Similar Search in High-dimensional Spaces
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/40771Collections
- Kvalifikační práce [9075]
Author
Advisor
Referee
Skopal, Tomáš
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Software Engineering
Date of defense
3. 9. 2012
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Very good
Keywords (Czech)
podobnostní vyhledávání, metrický prostor, index, data catrtridge
Keywords (English)
similarity search, metric space, index, data catrtridge
V této práci se zabýváme indexováním a vyhledáváním vysokodimenzionálních dat pomocí metody Metrického indexu pro indexování a podobnostní vyhledávání v metrických prostorech. Použití této metody nám umožnilo vytvořit implementaci indexu vhodného pro indexaci obecných metrických prostoru. Díky tomuto indexu je krome ukládání dat umožněno i jejich efektivní vyhledávání. Vnitřní struktura dat indexu zůstává skryta, index od uživatele vyžaduje pouze definici extrakční funkce pro získání vektoru, který data reprezentuje, a podobnostní funkce, která má být na indexovaná data aplikována. V této práci vznikla implementace Metrického indexu jako data cartridge pro databázový server Oracle. Tato data cartridge rozšiřuje možnosti indexace v Oracle o vytváření doménových indexů nad nestrukturovanými daty, takzvanými LOBy.
In this paper, we focus on indexing and searching in high-dimensional data. To achieve the target we implemented the Metric Index, a model of the similarity search based on the metric spaces, that employs many of known principles of partitioning and filtering. The metric space is a general model of similarity, which enables the usage of implemented index for various data. With this index, stored data could be searched effectively. The internal structure of data is hidden, we just require an implementation of the function for feature extraction, which produces a vector representing data, and the metric function applicable to the given data. The Metric Index was implemented as a data cartridge, the mechanism for extending the capabilities of the Oracle server. This data cartridge enables indexing of large unstructured data in the Oracle server known as LOBs.