Optimizing Workload Selection for Performance Testing of the GraalVM JIT Compiler
Výběr optimální množiny benchmarků pro testování výkonu JIT kompilátoru GraalVM
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/202677Identifikátory
SIS: 285363
Kolekce
- Kvalifikační práce [11985]
Autor
Vedoucí práce
Oponent práce
Tůma, Petr
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Systémové programování
Katedra / ústav / klinika
Katedra distribuovaných a spolehlivých systémů
Datum obhajoby
5. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Velmi dobře
Klíčová slova (česky)
zátěžový test|šetření výkonu|testování výkonnosti|výběr benchmarků|korelace|GraalVMKlíčová slova (anglicky)
benchmark|performance saving|performance testing|workload selection|correlation|GraalVMVýkon překladače GraalVM je průběžně sledován pomocí rozsáhlých sad zátěžových testů (benchmarků). Pro potlačení přirozené variability výsledků jsou testy spouštěny opakovaně a jejich výstupy zpracovávány statistickými metodami. Vzhledem k vysoké frekvenci vydávání nových verzí GraalVM vyžaduje tento proces značné výpočetní kapa- city. Výpočetní náročnost lze snížit omezením rutinního testování na podmnožinu ben- chmarků zachovávající schopnost detekovat významné změny výkonu. Tato práce před- stavuje nástroje pro analýzu historických dat a hledání statistických závislostí výsledků benchmarků s cílem vybrání takové podmnožiny a hodnocení její schopnosti detekovat změny výkonu. Architektura řešení umožňuje v klíčových bodech rozšíření o alternativní algoritmy. Funkčnost nástroje je demonstrována na dvou ukázkových scénářích.
The GraalVM compiler's performance is continuously tested using a large number of benchmarks from several suites, each executed repeatedly to mitigate the system's inher- ent performance fluctuations with statistical robustness. Since there are many versions to be tested daily, this poses significant demands on computational resources. These demands can be reduced by selecting a subset of these benchmarks that retains similar ability to detect significant performance changes. This thesis presents a toolset for ana- lyzing historical performance data and identifying dependencies between benchmarks in order to select such representative subsets and evaluate their effectiveness. The toolset is modular and supports extension through well-defined interfaces. Its fitness for purpose is demonstrated in two proof-of-concept experiments.
