OPS10-BP02 Definizione di un processo per ogni avviso - Pilastro dell'eccellenza operativa

OPS10-BP02 Definizione di un processo per ogni avviso

Stabilire un processo chiaro e definito per ogni avviso nel sistema è essenziale per una gestione degli incidenti efficace ed efficiente. Questa pratica garantisce che ogni avviso porti a una risposta specifica e attuabile, migliorando l'affidabilità e la reattività delle operazioni.

Risultato desiderato: ogni avviso avvia un piano di risposta specifico e ben definito. Ove possibile, le risposte sono automatizzate e dotate di una chiara titolarità e di un percorso di escalation definito. Gli avvisi sono collegati a una base di conoscenze aggiornata, in modo che qualsiasi operatore sia in grado di rispondere in modo coerente ed efficace. Le risposte sono rapide e uniformi su tutta la linea, migliorando l'efficienza e l'affidabilità operativa.

Anti-pattern comuni:

  • Gli avvisi non hanno un processo di risposta predefinito, il che porta a risoluzioni improvvisate e tardive.

  • Il sovraccarico di avvisi comporta che gli avvisi importanti vengano trascurati.

  • Gli avvisi vengono gestiti in modo incoerente a causa della mancanza di titolarità e responsabilità chiare.

Vantaggi dell'adozione di questa best practice:

  • Creazione solo di avvisi utilizzabili, con conseguente riduzione dell'affaticamento da avvisi.

  • Riduzione del tempo medio di risoluzione (MTTR) per problemi operativi.

  • Riduzione del tempo medio di indagine (MTTI), il che aiuta a ridurre l'MTTR.

  • Migliore capacità di scalare le risposte operative.

  • Maggiore coerenza e affidabilità nella gestione degli eventi operativi.

Livello di rischio associato se questa best practice non fosse adottata: elevato

Guida all'implementazione

Avere un processo per ogni avviso implica stabilire un piano di risposta chiaro per ciascun avviso, automatizzare le risposte ove possibile e perfezionare continuamente questi processi in base al feedback operativo e all'evoluzione dei requisiti.

Passaggi dell'implementazione

Il diagramma seguente illustra il flusso di lavoro di gestione degli incidenti all'interno di AWS Systems Manager Incident Manager. È progettato per rispondere rapidamente ai problemi operativi creando automaticamente incidenti in risposta a eventi specifici che si verificano in Amazon CloudWatch o Amazon EventBridge. Quando viene creato automaticamente o manualmente un incidente, Incident Manager centralizza la gestione dell'incidente, organizza le informazioni pertinenti sulle risorse AWS e avvia piani di risposta predefiniti. Ciò include l'esecuzione dei runbook di automazione di Systems Manager per un'azione immediata e la creazione di un elemento di lavoro operativo principale in OpsCenter per tenere traccia delle attività e delle analisi correlate. Questo processo semplificato accelera e coordina la risposta agli incidenti in tutto l'ambiente AWS.

Diagramma di flusso che illustra il funzionamento di Incident Manager: AWS Chatbot, i piani di escalation, i contatti e i runbook confluiscono nei piani di risposta, che generano incidenti e analisi. Anche Amazon CloudWatch confluisce anche nei piani di risposta.

  1. Utilizza allarmi compositi: crea allarmi compositi in CloudWatch per raggruppare allarmi correlati, così da ridurre il rumore e consentire risposte più significative.

  2. Integra gli allarmi di Amazon CloudWatch con Incident Manager: configura gli allarmi di CloudWatch per la creazione automatica di incidenti in AWS Systems Manager Incident Manager.

  3. Integra Amazon EventBridge con Incident Manager: crea regole EventBridge in modo da reagire agli eventi e creare incidenti mediante piani di risposta definiti.

  4. Preparati per gli incidenti in Incident Manager:

    • Crea piani di risposta dettagliati in Incident Manager per ciascun tipo di avviso.

    • Stabilisci canali di chat tramite AWS Chatbot collegato ai piani di risposta in Incident Manager, semplificando la comunicazione in tempo reale durante gli incidenti su piattaforme come Slack, Microsoft Teams e Amazon Chime.

    • Integra i runbook di Systems Manager Automation in Incident Manager per fornire risposte automatiche agli incidenti.

Risorse

Best practice correlate:

Documenti correlati:

Video correlati:

Esempi correlati: