Optimization of Processing of Data Files in System DIRAC
Optimization of Processing of Data Files in System DIRAC
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/81486Identifikátory
SIS: 165309
Kolekce
- Kvalifikační práce [10690]
Autor
Vedoucí práce
Konzultant práce
Chudoba, Jiří
Adamová, Dagmar
Oponent práce
Svoboda, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Správa počítačových systémů
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
2. 2. 2016
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
Systém DIRAC, NoSQL databáze, efektivní zpracování datových souborů, dotazování nad metadatyKlíčová slova (anglicky)
System DIRAC, NoSQL databases, efficient processing of data files, metadata queryingSystém DIRAC je softwarový framework poskytující kompletní řešení pro jednu nebo více uživatelských komunit, které potřebují zajistit přístup k distribuovaným výpočetním zdrojům. V této práci je rozšířen DIRAC File Catalog (DFC) o modul DatasetManager, přidávající funkcionalitu datasetů definovaných dotazem nad metadaty. K vylepšení práce s dotazy v kódu systému je vyvinuta nová třída MetaQuery, která shlukuje obslužné metody a přidává normalizaci a optimalizaci dotazu na vstupu. Jazyk vyjadřující dotazy byl také rozšířen přidáním možnosti používat logické spojky a závorky. Druhá část práce se zabývá testováním hypotézy, že použití NoSQL databáze jako back-end pro metadatovou část DFC by přineslo vylepšení výkonu vyhledávání. Několik NoSQL databází je otestováno na datech podobných produkčním datům používaných systémem DIRAC. Nejvýkonější z testovaných databází je pak připojena k DFC použitím nového specializovaného rozhraní. Powered by TCPDF (www.tcpdf.org)
DIRAC is a software framework for distributed computing providing a complete solution to one (or more) user community requiring access to distributed resources. In this thesis the DIRAC File Catalog (DFC) is extended by adding a DatasetManager module, thus adding support for datasets based on metadata queries. To improve the metaquery handling in the code, a new class MetaQuery was implemented that bundles the handling methods and adds normalization and optimization of the user input. The metaquery language was extended enabling logical operators and parenthesis. In the second part of the thesis the hypothesis that connecting the metadata part of the DIRAC File Catalog to a NoSQL database could improve metaquery performance is evaluated. Several databases are tested and the best performing one is then connected via an interface module to the DFC. Powered by TCPDF (www.tcpdf.org)