Strojové učení pro monitorování počítačových clusterů

Adam, Martin

Machine Learning in the Monitoring of Computer Clusters

diploma thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (151.4Kb)

Permanent link

http://hdl.handle.net/20.500.11956/116595

Identifiers

Study Information System: 199666

CU Caralogue: 990023115960106986

Consultant

Adamová, Dagmar

Referee

Balcar, Štěpán

Faculty / Institute

Faculty of Mathematics and Physics

Discipline

Artificial Intelligence

Department

Department of Theoretical Computer Science and Mathematical Logic

Date of defense

3. 2. 2020

Publisher

Univerzita Karlova, Matematicko-fyzikální fakulta

Language

Czech

Grade

Excellent

Keywords (Czech)

strojové učení, správa systémů, detekce anomálií

Keywords (English)

machine learning, system administration, anomaly detection

Vzrůstající počet požadavků na zpracovávání neustále rostoucích objemů dat dalo vzniknout novému způsobu správy počítačových systémů. V novém paradigmatu vzkvé- tají dynamicky vytvářené virtualizované servery, na kterých béží distribuované aplikace, každá zabírající mnoho samostatných strojů. Pro hladký a stabilní běh těchto aplikací je rozhodující efektivita detekce a opravy případných chybových stavů, do kterých se servery dostávají. Standardní monitorovací metody s nadstavbovými metodami na chy- bovou signalizaci nedávají při použití v tomto prostředí uspokojívé výsledky. V této práci popisujeme vytvoření systému k nasbírání datasetu tvořeného výkonostními metrikami klastru serverů, na kterých běží distribuovaná aplikace. Na těchto datech jsme následně ozkoušeli několik různých modelů. Navrhujeme pak systém na detekci anomálií, který by upozorňoval na chybné stavy využívající nejlepší z těchto modelů. 1

Abstract (English)

With the explosion of the number of distributed applications, a new dynamic server environment emerged grouping servers into clusters, whose utilization depends on the cur- rent demand for the application. Detecting and fixing erratic server behavior is paramount for providing maximal service stability and availability. Using standard techniques to de- tect such behavior is yielding sub-optimal results. We have collected a dataset of OS-level performance metrics from a cluster running a streaming distributed application and in- jected artificially created anomalies. We then selected a set of various machine learning algorithms and trained them for anomaly detection on said dataset. We evaluated the algorithms performance and proposed a system for generating notifications of possible erratic behavior, based on the analysis of the best performing algorithm. 1

Citace dokumentu

Metadata

Show full item record