OPS08-BP04 Creare avvisi fruibili - Principio dell'eccellenza operativa

OPS08-BP04 Creare avvisi fruibili

Rilevare e rispondere tempestivamente alle deviazioni di comportamento dell'applicazione è fondamentale. È importante riconoscere quando i risultati basati sugli indicatori chiave di prestazione (KPI) sono a rischio o quando si verificano anomalie impreviste. Basare gli avvisi sui KPI garantisce che i segnali ricevuti siano direttamente correlati all'impatto aziendale od operativo. Questo approccio verso avvisi fruibili promuove risposte proattive e aiuta a mantenere le prestazioni e l'affidabilità del sistema.

Risultato desiderato: si ricevono avvisi tempestivi, pertinenti e fruibili per l'identificazione e la mitigazione rapida di potenziali problemi, soprattutto quando i risultati dei KPI sono a rischio.

Anti-pattern comuni:

  • Si impostano troppi avvisi non critici, con conseguente affaticamento da avvisi ("alert fatigue").

  • Non viene data priorità agli avvisi in base ai KPI, il che rende difficile comprendere l'impatto dei problemi sull'azienda.

  • Non affrontare le cause principali porta a ricevere avvisi ripetuti per lo stesso problema.

Vantaggi dell'adozione di questa best practice:

  • Riduzione dell'affaticamento da avvisi ("alert fatigue") concentrandosi su avvisi pertinenti e fruibili.

  • Maggiore operatività e affidabilità del sistema grazie al rilevamento e alla mitigazione proattiva dei problemi.

  • Migliore collaborazione tra team e risoluzione più rapida dei problemi grazie all'integrazione con i più diffusi strumenti di avviso e comunicazione.

Livello di rischio associato se questa best practice non fosse adottata: elevato

Guida all'implementazione

Per creare un meccanismo di avviso efficace, è fondamentale utilizzare metriche, log e dati di tracciamento che segnalino quando i risultati basati sui KPI sono a rischio o vengono rilevate anomalie.

Passaggi dell'implementazione

  1. Determina gli indicatori chiave di prestazione (KPI): identifica i KPI dell'applicazione. Gli avvisi devono essere correlati a questi KPI per riflettere accuratamente l'impatto aziendale.

  2. Implementa il rilevamento delle anomalie:

  3. Implementa avvisi fruibili: progetta avvisi che forniscano informazioni adeguate per intraprendere un'azione immediata.

    1. Monitora gli eventi AWS Health con le regole Amazon EventBridge o integra a livello di programmazione l'API AWS Health per automatizzare le azioni quando ricevi eventi AWS Health. Possono essere azioni generali, come l'invio di tutti i messaggi pianificati sugli eventi del ciclo di vita a un'interfaccia di chat, oppure azioni specifiche, come l'avvio di un flusso di lavoro in uno strumento di gestione dei servizi IT.

  4. Riduci l'affaticamento da avvisi: riduci al minimo gli avvisi non critici. Quando i team sono sovraccaricati da numerosi avvisi insignificanti, possono trascurare i problemi critici, riducendo l'efficacia complessiva del meccanismo di avviso.

  5. Configura allarmi compositi: utilizza gli allarmi compositi Amazon CloudWatch per raggruppare più allarmi.

  6. Integra strumenti di avviso: incorpora strumenti come Ops Genie e PagerDuty.

  7. Integra AWS Chatbot: integra AWS Chatbot per inoltrare avvisi a Amazon Chime, Microsoft Teams e Slack.

  8. Usa l'avviso basato sui log: utilizza i filtri delle metriche dei log in CloudWatch per creare allarmi basati su eventi di log specifici.

  9. Rivedi e itera: riesamina e perfeziona regolarmente le configurazioni degli avvisi.

Livello di impegno per il piano di implementazione: medio

Risorse

Best practice correlate:

Documenti correlati:

Video correlati:

Esempi correlati: