Back to Search Start Over

Erkennung von Anomaliesymptomen in verteilten IT-Systemen

Authors :
Acker, Alexander
Kao, Odej
Technische Universität Berlin
Bermbach, David
Griwodz, Carsten
Publication Year :
2021
Publisher :
Technische Universität Berlin, 2021.

Abstract

The progressing global digitalization is driving innovative network technologies, computation platforms, and data-driven services. The number of components such as sensors, actuators, computing, storage, and network nodes, as well as a variety of service applications increases and results in IT systems of high complexity. A complex system is prone to errors or failures, but users expect services always to be available. Furthermore, high availability is essential for utilizing IT systems in critical areas such as medicine, logistics, energy, or the manufacturing industry. There, failures that are not immediately resolved can lead to hazardous situations. Consequently, system operators are increasingly overwhelmed with the task of keeping complex IT systems at an operational state. Solutions that support the operation and maintenance of complex IT systems are required to support humans. For this purpose, artificial intelligence for IT system operations (AIOps) is being explored to improve the availability, maintainability, and reliability of IT systems. It combines the research areas of artificial intelligence, machine learning, and system operation to monitor relevant components, analyze the monitoring data, and automatically select and execute operations to maintain an efficient operational state. The automation should enable improved robustness against failures. This thesis introduces methods to increase the availability of IT systems by reducing the time required to resolve errors and failures. Thereby, system components whose operational state deviates from a known norm are referred to as anomalies. We employ pattern recognition to search monitoring data from anomalous components for specific patterns. The identification of these anomaly symptoms allows a comparison to historical occurrences of anomalies and an automatic selection of feasible operations to resolve them. Further, our implemented methods can identify patterns that are representing yet unknown anomalies. Such cases are delegated to human experts. This "human-in-the-loop" approach represents a step-by-step transfer of knowledge from human experts into our system.<br />Die fortschreitende globale Digitalisierung treibt die Entwicklung von Netzwerktechnologien, Analyseplattformen und datengetriebenen Diensten voran. Damit einhergehend ist eine steigende Anzahl an Komponent wie Sensoren, Aktoren, Rechen- und Netzwerkknoten sowie unterschiedlichen Applikationen. Infolgedessen nimmt die Komplexit��t von IT Infrastrukturen stetig zu. Ein System mit hoher Komplexit��t ist anf��llig f��r Fehler oder Ausf��lle jedoch erwarten Anwender, dass die Dienste immer verf��gbar sind. Dar��ber hinaus ist eine hohe Verf��gbarkeit unerl��sslich f��r die Nutzung von IT Systemen in kritischen Bereichen wie Medizin, Logistik, Energie oder der Fertigungsindustrie. Dort haben Ausf��lle, die nicht schnell genug behoben werden, katastrophale Folgen. Die Konsequenz daraus ist, dass Betreiber zunehmend mit der Aufgabe ��berfordert sind die notwendige Verf��gbarkeit zu gew��hrleisten. Dies erfordert L��sungen, die den Betrieb und die Wartung von komplexen IT Systemen unterst��tzen. Daf��r wird der Einsatz KI-gest��tzter Methoden erforscht, die die Wartbarkeit, Verf��gbarkeit und Zuverl��ssigkeit von IT Systemen verbessern sollen. Diese werden eingesetzt um Systemkomponenten zu ��berwachen, die ��berwachungsdaten zu analysieren und bei Bedarf automatisch Operationen auszuw��hlen und auszuf��hren, um einen effizienten Betriebszustand aufrechtzuerhalten. Durch diese Automatisierung von Wartungs- und Administrationsaufgaben soll eine h��here Robustheit gegen��ber Ausf��llen realisiert werden. In dieser Arbeit erforschen wir Methoden, die die Verf��gbarkeit von IT Systemen erh��hen sollen, indem die notwendige Zeit f��r die Behebung von Fehlern und Ausf��llen reduziert wird. Dazu werden Daten von Systemkomponenten, deren Betriebszustand von einer bekannten Norm abweicht, nach spezifischen Mustern durchsucht. Diese als Anomaliesymptome bezeichneten Muster dienen dazu Fehlerf��lle zu identifizieren. Falls diese bereits in der Vergangenheit aufgetreten sind und erfolgreich Behoben wurden, erm��glicht das eine automatisierte und somit schnelle Wiederherstellung eines normalen Systemzustands. Die von uns entwickelten Erkennungsmethoden sind in der Lage Muster, die noch nicht bekannt sind, zu identifizieren und deren Behandlung an menschliche Experten zu delegieren. Dieser "Human-in-the-Loop"- Ansatz stellt eine schrittweise ��bertragung des Wissens von menschlichen Experten in unser System dar.

Details

Language :
English
Database :
OpenAIRE
Accession number :
edsair.doi.dedup.....afeb4d75303a6f636bcc7509d1618652