High-performance inverted index database
Vysoce výkonná databáze invertovaných indexů
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/109034Identifikátory
SIS: 204578
Kolekce
- Kvalifikační práce [10932]
Autor
Vedoucí práce
Oponent práce
Peška, Ladislav
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Programování a softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
5. 9. 2019
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Velmi dobře
Klíčová slova (česky)
invertované indexy, databáze, vysoce výkonný softwareKlíčová slova (anglicky)
inverted index, database, high-performance softwareCieľom práce je implementovať databázu invertovaných indexov, ktorá poskytuje zlepšenie v spracovaní netextových dát, čo je obzvlášť prínosné v niekoľkých oblastiach výskumu. Hlavné dátové štruktúry databázy sú navrhnuté tak, aby boli cache-oblivious a súčasne redukovali veľkosť ukladaných dát. Táto práca zahŕňa prehľad bežných metód, ktoré invertované indexy implementujú, a opisuje príbuzné štruktúry vo vhodnom cache modeli. To vedie k zlepšeniu kompresie a podobnému výkonu ako majú aktuálne dostupné, vysoko výkonné databázy. Meranie vykonané na chemicko-informatických dátach ukázalo, že software je použiteľný ako okamžitá účinná náhrada back-endov špeciálnych molekulových databáz.
The goal of this thesis is to implement an inverted-index database software that provides improvements in handling raw non-textual data, which is beneficial for several areas of research. The main internal structures of the library are designed to be cache-oblivious, also aiming to reduce the size of stored data. This thesis includes an overview of common inverted index implementation methods and describes retaled structures in a suitable cache-based model. This resulted in improvements of compression ratio, and performance similar to currently available highly optimized databases. The benchmark conducted on cheminformatic data has shown that the resulting software is applicable as an immediate, efficient replacement of the storage back-ends of specialized molecule databases.