Vektorová DIS cartridge pro Oracle
Vektorová DIS cartridge pro Oracle
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/13252Identifikátory
SIS: 41511
Kolekce
- Kvalifikační práce [11237]
Autor
Vedoucí práce
Oponent práce
Skopal, Tomáš
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
18. 9. 2007
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Oracle Text je dokumentografický informační systém, který tvoří nedílnou součást databáze Oracle. Je postaven na základním boolském modelu rozšířeném o další možnosti jako jsou přiřazení vah jednotlivým termům, výpočet podobnosti dotazu a dokumentů nebo fuzzy logika. Jako nadstavba Oracle Text je implementována nová databázová cartridge Vector Text, její základní filosofii však tvoří vektorový model. Díky tomuto modelu jsou tak vylepšeny možnosti řízení velikosti výstupu a poměřování relevantnosti vracených dokumentů. Pro tyto účely je ve Vector Text připraveno mnoho funkcí pro výpočet váhy termu a míry podobnosti dotazu s dokumenty a nechybí také jednoduché rozhraní pro jejich další rozšiřování. Uživatelské rozhraní cartridge Vector Text maximálně zachovalo podobu i principy použité v Oracle Text. Dále byla ponechána a navíc rozšířena možnost využití některých speciálních funkcionalit Oracle Text použitelných v obou modelech, jako jsou např. tezaurus nebo slovník stop slov.
Oracle Text is an information retrieval system, which is included in Oracle database. It is built up on the basic Boolean model being further extended by features like assigning weights to individual tokens, calculating similarity of query and documents or fuzzy logic. The new database cartridge called Vector Text is implemented as the extension of Oracle Text, however it is based on the Vector space model. Thanks to this fact the possibilities of controlling the output amount and measuring the relevance of the returned documents are improved. For this purpose there is prepared a lot of functions for calculating token weight and similarity measure of query and document in Vector Text. The simple interface for their further extensions is also present there. The user interface of Vector Text cartridge kept the same principles used in the Oracle Text. Furthermore, the possibility of using special functionalities of Oracle Text being applicable in both models like thesaurus or stoplist have been preserved.