High-performance inverted index database

Javorský, Dávid

Vysoce výkonná databáze invertovaných indexů

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (151.4Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/109034

Identifikátory

SIS: 204578

Oponent práce

Peška, Ladislav

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Programování a softwarové systémy

Katedra / ústav / klinika

Katedra softwarového inženýrství

Datum obhajoby

5. 9. 2019

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Velmi dobře

Klíčová slova (česky)

invertované indexy, databáze, vysoce výkonný software

Klíčová slova (anglicky)

inverted index, database, high-performance software

Cieľom práce je implementovať databázu invertovaných indexov, ktorá poskytuje zlepšenie v spracovaní netextových dát, čo je obzvlášť prínosné v niekoľkých oblastiach výskumu. Hlavné dátové štruktúry databázy sú navrhnuté tak, aby boli cache-oblivious a súčasne redukovali veľkosť ukladaných dát. Táto práca zahŕňa prehľad bežných metód, ktoré invertované indexy implementujú, a opisuje príbuzné štruktúry vo vhodnom cache modeli. To vedie k zlepšeniu kompresie a podobnému výkonu ako majú aktuálne dostupné, vysoko výkonné databázy. Meranie vykonané na chemicko-informatických dátach ukázalo, že software je použiteľný ako okamžitá účinná náhrada back-endov špeciálnych molekulových databáz.

Abstrakt (anglicky)

The goal of this thesis is to implement an inverted-index database software that provides improvements in handling raw non-textual data, which is beneficial for several areas of research. The main internal structures of the library are designed to be cache-oblivious, also aiming to reduce the size of stored data. This thesis includes an overview of common inverted index implementation methods and describes retaled structures in a suitable cache-based model. This resulted in improvements of compression ratio, and performance similar to currently available highly optimized databases. The benchmark conducted on cheminformatic data has shown that the resulting software is applicable as an immediate, efficient replacement of the storage back-ends of specialized molecule databases.

Citace dokumentu

Metadata

Zobrazit celý záznam