OPS10-BP02 Haben Sie einen Prozess pro Warnung - Säule „Betriebliche Exzellenz“

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

OPS10-BP02 Haben Sie einen Prozess pro Warnung

Die Einrichtung eines klaren und definierten Prozesses für jede Warnmeldung in Ihrem System ist für ein effektives und effizientes Vorfallmanagement unerlässlich. Diese Vorgehensweise stellt sicher, dass jede Warnmeldung zu einer spezifischen, umsetzbaren Reaktion führt, wodurch die Zuverlässigkeit und Reaktionsfähigkeit Ihrer Abläufe verbessert wird.

Gewünschtes Ergebnis: Jede Warnmeldung leitet einen bestimmten, genau definierten Reaktionsplan ein. Wenn möglich, werden die Antworten automatisiert, mit klaren Zuständigkeiten und einem definierten Eskalationspfad. Warnmeldungen sind mit einer up-to-date Wissensdatenbank verknüpft, sodass jeder Bediener konsistent und effektiv reagieren kann. Die Antworten sind schnell und einheitlich, was die betriebliche Effizienz und Zuverlässigkeit erhöht.

Typische Anti-Muster:

  • Für Warnmeldungen gibt es keinen vordefinierten Reaktionsprozess, was zu provisorischen und verzögerten Lösungen führt.

  • Eine Überlastung mit Warnmeldungen führt dazu, dass wichtige Warnmeldungen übersehen werden.

  • Warnmeldungen werden uneinheitlich gehandhabt, da es an klaren Zuständigkeiten und Verantwortlichkeiten mangelt.

Vorteile der Nutzung dieser bewährten Methode:

  • Weniger Ermüdungserscheinungen, da nur umsetzbare Warnmeldungen ausgelöst werden.

  • Verkürzte durchschnittliche Zeit bis zur Lösung betrieblicher Probleme (MTTR).

  • Die durchschnittliche Zeit bis zur Untersuchung wurde verringert (MTTI), was zur Reduzierung beiträgtMTTR.

  • Verbesserte Fähigkeit, operative Reaktionen zu skalieren.

  • Verbesserte Konsistenz und Zuverlässigkeit bei der Behandlung von Betriebsereignissen.

Risikostufe bei fehlender Befolgung dieser bewährten Methode: Hoch

Implementierungsleitfaden

Ein Prozess pro Warnmeldung beinhaltet die Erstellung eines klaren Reaktionsplans für jede Warnmeldung, die Automatisierung von Reaktionen (soweit dies möglich ist) und die kontinuierliche Optimierung dieser Prozesse auf Grundlage des betrieblichen Feedbacks und der sich entwickelnden Anforderungen.

Implementierungsschritte

Das folgende Diagramm veranschaulicht den Arbeitsablauf für das Vorfallmanagement in AWS Systems Manager Incident Manager. Es wurde entwickelt, um schnell auf betriebliche Probleme zu reagieren, indem es automatisch Vorfälle als Reaktion auf bestimmte Ereignisse von Amazon CloudWatch oder Amazon erstellt. EventBridge Wenn ein Vorfall entweder automatisch oder manuell erstellt wird, zentralisiert Incident Manager die Verwaltung des Vorfalls, organisiert relevante AWS Ressourceninformationen und initiiert vordefinierte Reaktionspläne. Dazu gehören die Ausführung von Systems Manager Automation-Runbooks für sofortige Aktionen sowie die Erstellung eines übergeordneten operativen Arbeitselements OpsCenter zur Nachverfolgung verwandter Aufgaben und Analysen. Dieser optimierte Prozess beschleunigt und koordiniert die Reaktion auf Vorfälle in Ihrer AWS gesamten Umgebung.

Ein Flussdiagramm, das zeigt AWS Chatbot, wie Incident Manager funktioniert — Eskalationspläne und Kontakte sowie Runbooks fließen in Reaktionspläne ein, die dann in Vorfälle und Analysen einfließen. Amazon fließt CloudWatch auch in Reaktionspläne ein.

  1. Verwenden Sie zusammengesetzte Alarme: Erstellen Sie zusammengesetzte Alarme, CloudWatch um zusammengehörige Alarme zu gruppieren. Dadurch werden Störgeräusche reduziert und aussagekräftigere Reaktionen ermöglicht.

  2. Integrieren Sie CloudWatch Amazon-Alarme in Incident Manager. Konfigurieren Sie CloudWatch Alarme, um automatisch Vorfälle in zu erstellen AWS Systems Manager Incident Manager.

  3. Integrieren Sie Amazon EventBridge mit Incident Manager: Erstellen Sie EventBridge Regeln, um auf Ereignisse zu reagieren, und erstellen Sie Vorfälle mithilfe definierter Reaktionspläne.

  4. Vorbereitung auf Vorfälle in Incident Manager:

    • Richten Sie in Incident Manager detaillierte Reaktionspläne für jede Art von Warnmeldung ein.

    • Richten Sie über AWS Chatbot Chat-Kanäle ein, die mit Reaktionsplänen in Incident Manager verknüpft sind und die Echtzeitkommunikation bei Vorfällen über Plattformen wie Slack, Microsoft Teams und Amazon Chime ermöglichen.

    • Integrieren Sie Systems-Manager-Automation-Runbooks in Incident Manager, um automatisierte Reaktionen auf Vorfälle zu ermöglichen.

Ressourcen

Zugehörige bewährte Methoden:

Zugehörige Dokumente:

Zugehörige Videos:

Zugehörige Beispiele: