Strojové učení pro monitorování počítačových clusterů
Machine Learning in the Monitoring of Computer Clusters
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/116595Identifiers
Study Information System: 199666
Collections
- Kvalifikační práce [11242]
Author
Advisor
Consultant
Adamová, Dagmar
Referee
Balcar, Štěpán
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Artificial Intelligence
Department
Department of Theoretical Computer Science and Mathematical Logic
Date of defense
3. 2. 2020
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
strojové učení, správa systémů, detekce anomáliíKeywords (English)
machine learning, system administration, anomaly detectionVzrůstající počet požadavků na zpracovávání neustále rostoucích objemů dat dalo vzniknout novému způsobu správy počítačových systémů. V novém paradigmatu vzkvé- tají dynamicky vytvářené virtualizované servery, na kterých béží distribuované aplikace, každá zabírající mnoho samostatných strojů. Pro hladký a stabilní běh těchto aplikací je rozhodující efektivita detekce a opravy případných chybových stavů, do kterých se servery dostávají. Standardní monitorovací metody s nadstavbovými metodami na chy- bovou signalizaci nedávají při použití v tomto prostředí uspokojívé výsledky. V této práci popisujeme vytvoření systému k nasbírání datasetu tvořeného výkonostními metrikami klastru serverů, na kterých běží distribuovaná aplikace. Na těchto datech jsme následně ozkoušeli několik různých modelů. Navrhujeme pak systém na detekci anomálií, který by upozorňoval na chybné stavy využívající nejlepší z těchto modelů. 1
With the explosion of the number of distributed applications, a new dynamic server environment emerged grouping servers into clusters, whose utilization depends on the cur- rent demand for the application. Detecting and fixing erratic server behavior is paramount for providing maximal service stability and availability. Using standard techniques to de- tect such behavior is yielding sub-optimal results. We have collected a dataset of OS-level performance metrics from a cluster running a streaming distributed application and in- jected artificially created anomalies. We then selected a set of various machine learning algorithms and trained them for anomaly detection on said dataset. We evaluated the algorithms performance and proposed a system for generating notifications of possible erratic behavior, based on the analysis of the best performing algorithm. 1