Improving efficiency of HEP applications
Zlepšování efektivity HEP aplikací
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/33404Identifikátory
SIS: 87734
Kolekce
- Kvalifikační práce [11196]
Autor
Vedoucí práce
Oponent práce
Falt, Zbyněk
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
31. 1. 2011
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
grid, profilování, distribuované souborové systémůKlíčová slova (anglicky)
grid, profi ling, distributed files systemVelký hadronový urychlovač (Large Hadron Collider - LHC) vybudovaný v CERNu v Ženevě byl konečně spuštěn a začal generovat obrovské množství dat. Tato data jsou distribuována mezi výpočetní centra po celém světě, která tvoří Worldwide LHC Computing Grid (WLCG). Jeden z největších problémů již od začátku tohoto projektu je efektivní přístup k datům v jednotlivých centrech tak, aby se plně využily obrovské výpočetní prostředky. Cílem práce je prozkoumat, jakým způsobem se distribuují data, jaké jsou použité standardy, metody a protokoly. Důležitou částí práce je dále analýza přístupů k diskům spuštěnými úlohami, aby se zjistily případné problémy a neefektivní chování. Součástí práce je také porovnání nových řešení ukládání dat založených na distribuovaných souborových systémech jako je NFS4.+, Lustre nebo HDSF.
The Large Hadron Collider (LHC) located at CERN, Geneva has finally been put in production, generating unprecedented amount of data. These data are distributed across many computing centers all over the world that form the Worldwide LHC Computing Grid (WLCG). One of the main issues since the beginning of the WLCG project is an effective file access on the site level in order to fully exploit huge computing farms. The aim of this thesis is to explore existing data distribution work flows, standards, methods and protocols. An integral part of the work is the analysis of jobs of physicists to understand input/output workloads and to discover possible inefficiencies. Then, new upcoming solutions are evaluated in terms of performance, sustainability and integration into existing frameworks. It is expected that these solutions will be based on distributed file systems such as NFS 4.1, Lustre and HDFS.