OPS11-BP02 Esecuzione di analisi post-incidente - Framework AWS Well-Architected

OPS11-BP02 Esecuzione di analisi post-incidente

Esamina gli eventi che influiscono sui clienti e identifica i fattori che contribuiscono e le azioni preventive. Utilizza queste informazioni per sviluppare modi per limitare o prevenire il ripetersi degli incidenti. Sviluppa procedure per attivare risposte rapide ed efficaci. Comunica i fattori che hanno contribuito al presentarsi dell'imprevisto e le azioni correttive secondo necessità, specificamente mirate per il pubblico di destinazione.

Risultato desiderato:

  • Stabilisci processi di gestione degli incidenti che includono l'analisi post-incidente.

  • Hai a disposizione piani di osservabilità per raccogliere dati sugli eventi.

  • Con questi dati comprendi e raccogli metriche che supportano il tuo processo di analisi post-incidente.

  • Impari dagli incidenti per migliorare i risultati futuri.

Anti-pattern comuni:

  • Sei amministratore di un server di applicazioni. Circa ogni 23 ore e 55 minuti tutte le sessioni attive vengono terminate. Hai tentato di identificare ciò che non va a buon fine sul server di applicazioni. Sospetti che potrebbe trattarsi di un problema di rete, ma non riesci a ottenere la collaborazione dal team di rete perché i suoi membri sono troppo occupati per supportarti. Ti manca un processo predefinito da seguire per ottenere supporto e raccogliere le informazioni necessarie per stabilire che cosa sta accadendo.

  • Si è verificata una perdita di dati all'interno del carico di lavoro. Questa è la prima volta che si è verificata e la causa non è immediatamente identificabile. Decidi che non è importante perché puoi ricreare i dati. La perdita di dati inizia a verificarsi con maggiore frequenza e influisce sui clienti. Questo comporta inoltre un ulteriore onere operativo quando ripristini i dati mancanti.

Vantaggi dell'adozione di questa best practice:

  • Disponendo di un processo predefinito per determinare i componenti, le condizioni, le azioni e gli eventi che hanno contribuito a un incidente, sei in grado di identificare le opportunità di miglioramento.

  • Utilizzi i dati dell'analisi post-incidente per apportare miglioramenti.

Livello di rischio associato se questa best practice non fosse adottata: elevato

Guida all'implementazione

Utilizza un processo per determinare i fattori che concorrenti. Esamina tutti gli incidenti che influiscono sul cliente. Predisponi un processo per identificare e documentare i fattori che contribuiscono a un incidente, in modo da sviluppare azioni di mitigazione in grado di limitare o impedire il suo ripetersi e per sviluppare procedure che consentano risposte rapide ed efficaci. Comunica le cause principali degli incidenti in modo appropriato e personalizza la comunicazione in base al pubblico di destinazione. Condividi quanto appreso in maniera aperta all'interno della tua organizzazione.

Passaggi dell'implementazione

  1. Raccogli metriche come le modifiche all'implementazione e alla configurazione, l'ora di inizio dell'incidente, l'ora dell'allarme, dell'intervento, dell'inizio della mitigazione e il tempo di risoluzione dell'incidente.

  2. Descrivi i momenti fondamentali sulla linea temporale per comprendere gli eventi dell'incidente.

  3. Poni le seguenti domande:

    1. Potresti migliorare il tempo di rilevamento?

    2. Sono presenti aggiornamenti alle metriche e agli allarmi che permettono di rilevare l'incidente prima?

    3. Puoi migliorare i tempi di diagnosi?

    4. Sono presenti aggiornamenti ai tuoi piani di risposta o di escalation che potrebbero coinvolgere prima i team di risposta corretti?

    5. Puoi migliorare il tempo necessario per la mitigazione?

    6. Ci sono passaggi del runbook o del playbook che potresti aggiungere o migliorare?

    7. È possibile prevenire che si verifichino incidenti futuri?

  4. Crea liste di controllo e azioni. Monitora ed esegui tutte le azioni.

Livello di impegno per il piano di implementazione: medio

Risorse

Best practice correlate:

Documenti correlati: