Strojové učení pro monitorování počítačových clusterů
Machine Learning in the Monitoring of Computer Clusters
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/116595Identifikátory
SIS: 199666
Kolekce
- Kvalifikační práce [11325]
Autor
Vedoucí práce
Konzultant práce
Adamová, Dagmar
Oponent práce
Balcar, Štěpán
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Umělá inteligence
Katedra / ústav / klinika
Katedra teoretické informatiky a matematické logiky
Datum obhajoby
3. 2. 2020
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
strojové učení, správa systémů, detekce anomáliíKlíčová slova (anglicky)
machine learning, system administration, anomaly detectionVzrůstající počet požadavků na zpracovávání neustále rostoucích objemů dat dalo vzniknout novému způsobu správy počítačových systémů. V novém paradigmatu vzkvé- tají dynamicky vytvářené virtualizované servery, na kterých béží distribuované aplikace, každá zabírající mnoho samostatných strojů. Pro hladký a stabilní běh těchto aplikací je rozhodující efektivita detekce a opravy případných chybových stavů, do kterých se servery dostávají. Standardní monitorovací metody s nadstavbovými metodami na chy- bovou signalizaci nedávají při použití v tomto prostředí uspokojívé výsledky. V této práci popisujeme vytvoření systému k nasbírání datasetu tvořeného výkonostními metrikami klastru serverů, na kterých běží distribuovaná aplikace. Na těchto datech jsme následně ozkoušeli několik různých modelů. Navrhujeme pak systém na detekci anomálií, který by upozorňoval na chybné stavy využívající nejlepší z těchto modelů. 1
With the explosion of the number of distributed applications, a new dynamic server environment emerged grouping servers into clusters, whose utilization depends on the cur- rent demand for the application. Detecting and fixing erratic server behavior is paramount for providing maximal service stability and availability. Using standard techniques to de- tect such behavior is yielding sub-optimal results. We have collected a dataset of OS-level performance metrics from a cluster running a streaming distributed application and in- jected artificially created anomalies. We then selected a set of various machine learning algorithms and trained them for anomaly detection on said dataset. We evaluated the algorithms performance and proposed a system for generating notifications of possible erratic behavior, based on the analysis of the best performing algorithm. 1