Index pro textové vyhledávaní nad relačními daty
Index for free form querying over relational data
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/17219Identifiers
Study Information System: 47338
CU Caralogue: 990011007510106986
Collections
- Kvalifikační práce [11502]
Author
Advisor
Referee
Hoksza, David
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software systems
Department
Department of Software Engineering
Date of defense
24. 9. 2008
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Pro textové vyhledávání v relačních databázích byl navržen systém Précis, který umožňuje vyhledávat požadovaná data v celé databázi. Odpovědí na takovýto dotaz bude sjednocení výsledků, které bude obsahovat nejen data přímo související s dotazem, ale také informace, které s nimi souvisejí jen nepřímo. Protože tento systém je založen na vyhledávání textových výrazů nad všemi sloupci všech tabulek najednou, nejsou standardní indexy založené na B-stromech ani textové indexy pro tento účel příliš vhodné. V práci byla navržena a implementována indexová struktura umožňující vyhledávání v libovolném množství tabulek a sloupců. Tato struktura je založena na invertovaném souboru. Implementovaný index umožňuje zadávání boolovských dotazů. Nalezené dokumenty jsou ohodnoceny a setříděny podle tohoto ohodnocení. Uživatelské rozhraní Précis indexu umožňuje používání běžných SQL dotazů pro vyhledávání požadovaných dokumentů. Implementace indexu je vytvořena pro databázový server Oracle.
Précis system has been designed for text based searching over relational database. This system enables user to search requested data over whole database. Answer to these free-form queries is a synthesis of results containing not only information directly related to the query selections but also information implicitly related to them. Neither standard B-tree based indices nor text based indices are suitable for this purpose because we need to search requested data in all columns of all tables within the database. The goal of this thesis is to design and implement index structure, which will contain data from any number of columns and tables. This structure is based on inverted file. Implemented index supports boolean queries. Result documents are weighted and ordered by this weight. User interface of Précis index uses standard SQL queries to search for desired documents. Implementation of the index is created for Oracle Database server.