Strojové učení pro monitorování počítačových clusterů

Adam, Martin

Machine Learning in the Monitoring of Computer Clusters

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (151.4Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/116595

Identifikátory

SIS: 199666

Katalog UK: 990023115960106986

Konzultant práce

Adamová, Dagmar

Oponent práce

Balcar, Štěpán

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Umělá inteligence

Katedra / ústav / klinika

Katedra teoretické informatiky a matematické logiky

Datum obhajoby

3. 2. 2020

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Čeština

Známka

Výborně

Klíčová slova (česky)

strojové učení, správa systémů, detekce anomálií

Klíčová slova (anglicky)

machine learning, system administration, anomaly detection

Vzrůstající počet požadavků na zpracovávání neustále rostoucích objemů dat dalo vzniknout novému způsobu správy počítačových systémů. V novém paradigmatu vzkvé- tají dynamicky vytvářené virtualizované servery, na kterých béží distribuované aplikace, každá zabírající mnoho samostatných strojů. Pro hladký a stabilní běh těchto aplikací je rozhodující efektivita detekce a opravy případných chybových stavů, do kterých se servery dostávají. Standardní monitorovací metody s nadstavbovými metodami na chy- bovou signalizaci nedávají při použití v tomto prostředí uspokojívé výsledky. V této práci popisujeme vytvoření systému k nasbírání datasetu tvořeného výkonostními metrikami klastru serverů, na kterých běží distribuovaná aplikace. Na těchto datech jsme následně ozkoušeli několik různých modelů. Navrhujeme pak systém na detekci anomálií, který by upozorňoval na chybné stavy využívající nejlepší z těchto modelů. 1

Abstrakt (anglicky)

With the explosion of the number of distributed applications, a new dynamic server environment emerged grouping servers into clusters, whose utilization depends on the cur- rent demand for the application. Detecting and fixing erratic server behavior is paramount for providing maximal service stability and availability. Using standard techniques to de- tect such behavior is yielding sub-optimal results. We have collected a dataset of OS-level performance metrics from a cluster running a streaming distributed application and in- jected artificially created anomalies. We then selected a set of various machine learning algorithms and trained them for anomaly detection on said dataset. We evaluated the algorithms performance and proposed a system for generating notifications of possible erratic behavior, based on the analysis of the best performing algorithm. 1

Citace dokumentu

Metadata

Zobrazit celý záznam