Vektorová DIS cartridge pro Oracle
Vektorová DIS cartridge pro Oracle
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/13252Identifiers
Study Information System: 41511
Collections
- Kvalifikační práce [11236]
Author
Advisor
Referee
Skopal, Tomáš
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software systems
Department
Department of Software Engineering
Date of defense
18. 9. 2007
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Oracle Text je dokumentografický informační systém, který tvoří nedílnou součást databáze Oracle. Je postaven na základním boolském modelu rozšířeném o další možnosti jako jsou přiřazení vah jednotlivým termům, výpočet podobnosti dotazu a dokumentů nebo fuzzy logika. Jako nadstavba Oracle Text je implementována nová databázová cartridge Vector Text, její základní filosofii však tvoří vektorový model. Díky tomuto modelu jsou tak vylepšeny možnosti řízení velikosti výstupu a poměřování relevantnosti vracených dokumentů. Pro tyto účely je ve Vector Text připraveno mnoho funkcí pro výpočet váhy termu a míry podobnosti dotazu s dokumenty a nechybí také jednoduché rozhraní pro jejich další rozšiřování. Uživatelské rozhraní cartridge Vector Text maximálně zachovalo podobu i principy použité v Oracle Text. Dále byla ponechána a navíc rozšířena možnost využití některých speciálních funkcionalit Oracle Text použitelných v obou modelech, jako jsou např. tezaurus nebo slovník stop slov.
Oracle Text is an information retrieval system, which is included in Oracle database. It is built up on the basic Boolean model being further extended by features like assigning weights to individual tokens, calculating similarity of query and documents or fuzzy logic. The new database cartridge called Vector Text is implemented as the extension of Oracle Text, however it is based on the Vector space model. Thanks to this fact the possibilities of controlling the output amount and measuring the relevance of the returned documents are improved. For this purpose there is prepared a lot of functions for calculating token weight and similarity measure of query and document in Vector Text. The simple interface for their further extensions is also present there. The user interface of Vector Text cartridge kept the same principles used in the Oracle Text. Furthermore, the possibility of using special functionalities of Oracle Text being applicable in both models like thesaurus or stoplist have been preserved.