Improving efficiency of HEP applications
Zlepšování efektivity HEP aplikací
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/33404Identifiers
Study Information System: 87734
Collections
- Kvalifikační práce [11325]
Author
Advisor
Referee
Falt, Zbyněk
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Software Engineering
Date of defense
31. 1. 2011
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
grid, profilování, distribuované souborové systémůKeywords (English)
grid, profi ling, distributed files systemVelký hadronový urychlovač (Large Hadron Collider - LHC) vybudovaný v CERNu v Ženevě byl konečně spuštěn a začal generovat obrovské množství dat. Tato data jsou distribuována mezi výpočetní centra po celém světě, která tvoří Worldwide LHC Computing Grid (WLCG). Jeden z největších problémů již od začátku tohoto projektu je efektivní přístup k datům v jednotlivých centrech tak, aby se plně využily obrovské výpočetní prostředky. Cílem práce je prozkoumat, jakým způsobem se distribuují data, jaké jsou použité standardy, metody a protokoly. Důležitou částí práce je dále analýza přístupů k diskům spuštěnými úlohami, aby se zjistily případné problémy a neefektivní chování. Součástí práce je také porovnání nových řešení ukládání dat založených na distribuovaných souborových systémech jako je NFS4.+, Lustre nebo HDSF.
The Large Hadron Collider (LHC) located at CERN, Geneva has finally been put in production, generating unprecedented amount of data. These data are distributed across many computing centers all over the world that form the Worldwide LHC Computing Grid (WLCG). One of the main issues since the beginning of the WLCG project is an effective file access on the site level in order to fully exploit huge computing farms. The aim of this thesis is to explore existing data distribution work flows, standards, methods and protocols. An integral part of the work is the analysis of jobs of physicists to understand input/output workloads and to discover possible inefficiencies. Then, new upcoming solutions are evaluated in terms of performance, sustainability and integration into existing frameworks. It is expected that these solutions will be based on distributed file systems such as NFS 4.1, Lustre and HDFS.