Index pro podobnostní vyhledávání ve vysokodimenzionálních prostorech
Index Suitable for Similar Search in High-dimensional Spaces
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/40771Identifikátory
SIS: 88190
Kolekce
- Kvalifikační práce [10690]
Autor
Vedoucí práce
Oponent práce
Skopal, Tomáš
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
3. 9. 2012
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Velmi dobře
Klíčová slova (česky)
podobnostní vyhledávání, metrický prostor, index, data catrtridgeKlíčová slova (anglicky)
similarity search, metric space, index, data catrtridgeV této práci se zabýváme indexováním a vyhledáváním vysokodimenzionálních dat pomocí metody Metrického indexu pro indexování a podobnostní vyhledávání v metrických prostorech. Použití této metody nám umožnilo vytvořit implementaci indexu vhodného pro indexaci obecných metrických prostoru. Díky tomuto indexu je krome ukládání dat umožněno i jejich efektivní vyhledávání. Vnitřní struktura dat indexu zůstává skryta, index od uživatele vyžaduje pouze definici extrakční funkce pro získání vektoru, který data reprezentuje, a podobnostní funkce, která má být na indexovaná data aplikována. V této práci vznikla implementace Metrického indexu jako data cartridge pro databázový server Oracle. Tato data cartridge rozšiřuje možnosti indexace v Oracle o vytváření doménových indexů nad nestrukturovanými daty, takzvanými LOBy.
In this paper, we focus on indexing and searching in high-dimensional data. To achieve the target we implemented the Metric Index, a model of the similarity search based on the metric spaces, that employs many of known principles of partitioning and filtering. The metric space is a general model of similarity, which enables the usage of implemented index for various data. With this index, stored data could be searched effectively. The internal structure of data is hidden, we just require an implementation of the function for feature extraction, which produces a vector representing data, and the metric function applicable to the given data. The Metric Index was implemented as a data cartridge, the mechanism for extending the capabilities of the Oracle server. This data cartridge enables indexing of large unstructured data in the Oracle server known as LOBs.