Was ist AWS Systems Manager Incident Manager? - Incident Manager

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Was ist AWS Systems Manager Incident Manager?

Incident Manager, eine Funktion vonAWS Systems Manager, soll Ihnen helfen, Vorfälle, die Ihre Anwendungen betreffen, auf AWS denen gehostet wird, zu minimieren und diese zu beheben.

Im Zusammenhang mit ist ein Vorfall jede ungeplante Unterbrechung oder Verringerung der Servicequalität, die erhebliche Auswirkungen auf den Geschäftsbetrieb haben kann. AWS Daher ist es für Unternehmen von entscheidender Bedeutung, eine Reaktionsstrategie zu entwickeln, um Vorfälle effizient zu mindern und zu beheben, und Maßnahmen zur Verhinderung future Vorfälle zu ergreifen.

Incident Manager trägt dazu bei, die Zeit für die Behebung von Vorfällen zu verkürzen, und zwar durch:

  • Bereitstellung automatisierter Pläne zur effizienten Einbindung der Personen, die für die Reaktion auf die Vorfälle verantwortlich sind.

  • Bereitstellung relevanter Daten zur Fehlerbehebung.

  • Aktivierung automatisierter Antwortaktionen mithilfe vordefinierter Automatisierungs-Runbooks.

  • Bereitstellung von Methoden für die Zusammenarbeit und Kommunikation mit allen Beteiligten.

Die in Incident Manager integrierten Funktionen und Workflows basieren auf den Best Practices für die Reaktion auf Vorfälle, die Amazon fast seit seiner Gründung entwickelt hat. Incident Manager lässt sich in Amazon CloudWatch, AWS CloudTrailAWS Systems Manager, und Amazon integrieren EventBridge. AWS-Services

Hauptkomponenten und Funktionen

In diesem Abschnitt werden die Funktionen von Incident Manager beschrieben, mit denen Sie Ihre Pläne zur Reaktion auf Vorfälle einrichten.

Reaktionsplan

Ein Reaktionsplan dient als Vorlage, die definiert, was bei einem Vorfall vorhanden sein muss. Er enthält Informationen wie:

  • Wer muss reagieren, wenn ein Vorfall eintritt.

  • Die etablierte automatisierte Reaktion zur Minderung des Vorfalls.

  • Das Kollaborationstool, das Einsatzkräfte verwenden müssen, um zu kommunizieren und automatische Benachrichtigungen über den Vorfall zu erhalten.

Erkennung von Vorfällen

Sie können CloudWatch Amazon-Alarme und EventBridge Amazon-Ereignisse so konfigurieren, dass Vorfälle ausgelöst werden, wenn Bedingungen oder Änderungen erkannt werden, die sich auf Ihre AWS Ressourcen auswirken.

Unterstützung für Runbook-Automatisierung

Sie können Automation-Runbooks von Incident Manager aus initiieren, um Ihre kritische Reaktion auf Vorfälle zu automatisieren und Ersthelfern detaillierte Schritte zur Verfügung zu stellen.

Engagement und Eskalation

Ein Einsatzplan sieht vor, dass jeder bei jedem einzelnen Vorfall benachrichtigt wird. Sie können einzelne Kontakte angeben, die Sie zu Incident Manager hinzugefügt haben, oder einen Bereitschaftsdienst angeben, den Sie in Incident Manager erstellt haben. In den Einsatzplänen ist auch ein Eskalationspfad festgelegt, um sicherzustellen, dass die Beteiligten für Transparenz sorgen und aktiv am Prozess der Reaktion auf Vorfälle teilnehmen.

Zeitpläne für Bereitschaftsdienste

Ein Bereitschaftsdienst in Incident Manager besteht aus einer oder mehreren Rotationen, die Sie für den Zeitplan erstellen. Für jede Rotation können Sie bis zu 30 Kontakte einbeziehen. Wenn der Bereitschaftsdienst zu einem Eskalations- oder Reaktionsplan hinzugefügt wird, legt er fest, wer benachrichtigt wird, wenn ein Vorfall eintritt, der das Eingreifen eines Einsatzmitarbeiters erfordert. Bereitschaftszeiten stellen sicher, dass Sie rund um die Uhr über eine vollständige, redundante Abdeckung verfügen, die für Ihre Reaktion auf Vorfälle erforderlich ist.

Aktive Zusammenarbeit

Incident Responder reagieren aktiv auf Vorfälle, indem sie eng mit dem AWS Chatbot Kunden zusammenarbeiten. AWS Chatbotunterstützt die Erstellung von Chat-Kanälen für Incident Manager SlackMicrosoft Teams, die Amazon Chime verwenden. Einsatzkräfte können direkt miteinander kommunizieren, automatische Benachrichtigungen über Vorfälle erhalten und einige Incident Microsoft Teams Manager-Befehlszeilenschnittstellen (CLI) Slack -Operationen direkt ausführen.

Diagnose von Vorfällen

Einsatzkräfte können während eines Vorfalls up-to-date Informationen in der Incident Manager-Konsole einsehen. Auf der Grundlage der Änderungen an den Informationen können die Einsatzkräfte dann Folgeelemente erstellen und diese mithilfe von Automation-Runbooks beheben.

Erkenntnisse aus anderen Diensten

Um die Diagnose von Vorfällen durch Einsatzkräfte zu unterstützen, können Sie die Funktion „Ergebnisse“ in Incident Manager aktivieren. Bei den Ergebnissen handelt es sich um Informationen über AWS CodeDeploy Bereitstellungen und AWS CloudFormation Stack-Aktualisierungen, die ungefähr zum Zeitpunkt eines Vorfalls stattfanden und an denen eine oder mehrere Ressourcen beteiligt waren, die wahrscheinlich mit dem Vorfall zu tun hatten. Mit diesen Informationen wird der Zeitaufwand für die Bewertung potenzieller Ursachen reduziert, wodurch sich die mittlere Wiederherstellungszeit (MTTR) nach einem Vorfall verringern kann.

Analyse nach dem Vorfall

Nach der Behebung eines Vorfalls ermitteln Sie anhand einer Analyse nach dem Vorfall Verbesserungen bei der Reaktion auf den Vorfall, einschließlich der Zeit bis zur Erkennung und Behebung des Vorfalls. Eine Analyse kann Ihnen auch dabei helfen, die Ursache der Vorfälle zu verstehen. Incident Manager erstellt empfohlene Folgemaßnahmen, anhand derer Sie Ihre Reaktion auf Vorfälle verbessern können.

Vorteile der Verwendung von Incident Manager

Erfahren Sie mehr über die Vorteile des Einsatzes von Incident Manager bei der Erkennung und Reaktion auf Vorfälle.

In diesem Abschnitt werden die Vorteile beschrieben, die Ihr Unternehmen durch die Implementierung eines Incident Manager-Reaktionsplans erzielen kann.

Diagnostizieren Sie Probleme effizient und sofort

CloudWatch Amazon-Alarme und EventBridge Amazon-Ereignisse, die Sie konfigurieren, können automatisch Vorfälle auslösen, wenn es zu ungeplanten Unterbrechungen oder Qualitätseinbußen Ihrer Services kommt.

CloudWatch Alarme erkennen und melden, wenn sich der Wert der Metrik oder des Ausdrucks relativ zu einem Schwellenwert über mehrere Zeiträume ändert. EventBridge Ereignisse entstehen als Ergebnis einer Änderung in einer Umgebung, Anwendung oder einem Dienst, die Sie in einer EventBridge Regel angegeben haben. Wenn Sie einen Alarm oder ein Ereignis erstellen, können Sie eine Aktion für einen Vorfall, der in Incident Manager erstellt werden soll, und den entsprechenden Reaktionsplan angeben, um die Bearbeitung, Eskalation und Minderung des Vorfalls zu erleichtern.

Incident Manager bietet die Möglichkeit, mithilfe von Metriken automatisch die Metriken zu einem Vorfall zu sammeln und zu verfolgen. CloudWatch Zusätzlich zu den automatisierten Metriken, die für den Vorfall generiert werden, wenn er durch einen CloudWatch Alarm erstellt wird, können Sie Metriken manuell in Echtzeit hinzufügen, um den Einsatzkräften bei einem Vorfall zusätzlichen Kontext und zusätzliche Daten zur Verfügung zu stellen.

Verwenden Sie die Incident Manager-Incident-Zeitleiste, um interessante Punkte in chronologischer Reihenfolge anzuzeigen. Einsatzkräfte können die Zeitleiste auch verwenden, um benutzerdefinierte Ereignisse hinzuzufügen, um zu beschreiben, was sie getan haben oder was passiert ist. Zu den automatisierten Sonderzielen gehören:

  • Ein CloudWatch Alarm oder eine EventBridge Regel verursacht einen Vorfall.

  • Incident-Metriken werden an Incident Manager gemeldet.

  • Die Einsatzkräfte sind engagiert.

  • Die Runbook-Schritte wurden erfolgreich abgeschlossen.

Engagieren Sie sich effektiv

Incident Manager bringt Incident Responder mithilfe von Kontakten, Bereitschaftszeitplänen, Eskalationsplänen und Chat-Kanälen zusammen. Sie definieren einzelne Kontakte direkt im Incident Manager und legen Kontaktpräferenzen fest (E-Mail, SMS oder Telefonanruf). Sie fügen Kontakte zu den Rotationen auf Abruf hinzu, um zu bestimmen, wer in einem bestimmten Zeitraum mit der Bearbeitung von Vorfällen beauftragt wird. Anhand Ihrer definierten Ansprechpartner und Bereitschaftszeitpläne erstellen Sie Eskalationspläne, um die erforderlichen Einsatzkräfte zur richtigen Zeit während eines Vorfalls einzuschalten.

Arbeiten Sie in Echtzeit zusammen

Kommunikation während eines Vorfalls ist der Schlüssel zu einer schnelleren Lösung. Mithilfe eines für die Verwendung Slack von Amazon Chime eingerichteten AWS Chatbot Clients oder Amazon Chime können Sie die Einsatzkräfte in ihrem bevorzugten verbundenen Chat-Kanal zusammenbringen, wo sie direkt mit dem Vorfall und miteinander interagieren. Microsoft Teams Incident Manager zeigt auch die Aktionen der Incident-Responder in Echtzeit im Chat-Kanal an und bietet so anderen Kontext.

Automatisieren Sie die Servicewiederherstellung

Mit Incident Manager können sich Ihre Einsatzkräfte mithilfe von Automation-Runbooks auf die wichtigsten Aufgaben konzentrieren, die zur Behebung eines Vorfalls erforderlich sind. In Incident Manager sind Runbooks eine vordefinierte Reihe von Aktionen, die zur Lösung eines Vorfalls ergriffen werden. Sie kombinieren die Leistungsfähigkeit automatisierter Aufgaben mit manuellen Schritten nach Bedarf, sodass die Einsatzkräfte besser zur Verfügung stehen, um die Auswirkungen zu analysieren und darauf zu reagieren.

future Vorfälle verhindern

Mithilfe der Incident-Manager-Analyse nach dem Vorfall kann Ihr Team robustere Reaktionspläne entwickeln und Änderungen in Ihren Anwendungen vornehmen, um future Vorfälle und Ausfallzeiten zu verhindern. Die Analyse nach einem Vorfall ermöglicht zudem iteratives Lernen und Verbessern von Runbooks, Reaktionsplänen und Kennzahlen.

Incident Manager lässt sich in verschiedene Dienste AWS-Services und Tools von Drittanbietern integrieren, um Sie bei der Erkennung und Behebung von Vorfällen zu unterstützen, indirekt mit den API-Vorgängen zu interagieren und die Infrastruktur zu verwalten. Weitere Informationen finden Sie unter Produkt- und Serviceintegrationen mit Incident Manager.

Zugriff auf Incident Manager

Sie können auf jede der folgenden Arten auf Incident Manager zugreifen:

Regionen und Kontingente für Incident Manager

Incident Manager wird nicht in allen von Systems Manager AWS-Regionen unterstützten Versionen unterstützt.

Informationen zu den Regionen und Kontingenten von Incident Manager finden Sie unter AWS Systems Manager Incident ManagerEndpunkte und Kontingente in der Allgemeine Amazon Web Services-Referenz.

Preise für Incident Manager

Die Nutzung von Incident Manager ist kostenpflichtig. Weitere Informationen finden Sie unter AWSSystems Manager Manager-Preise.

Anmerkung

Andere AWS-Services Inhalte und AWS Inhalte Dritter, die in Verbindung mit diesem Service zur Verfügung gestellt werden, können gesonderten Gebühren unterliegen und zusätzlichen Bedingungen unterliegen.

Eine Übersicht über einen ServiceTrusted Advisor, mit dem Sie die Kosten, die Sicherheit und die Leistung Ihrer AWS Umgebung optimieren können, finden Sie AWS Trusted Advisorim AWS SupportBenutzerhandbuch.