OPS08-BP04 Creare avvisi fruibili
Rilevare e rispondere tempestivamente alle deviazioni di comportamento dell'applicazione è fondamentale. È importante riconoscere quando i risultati basati sugli indicatori chiave di prestazione (KPI) sono a rischio o quando si verificano anomalie impreviste. Basare gli avvisi sui KPI garantisce che i segnali ricevuti siano direttamente correlati all'impatto aziendale od operativo. Questo approccio verso avvisi fruibili promuove risposte proattive e aiuta a mantenere le prestazioni e l'affidabilità del sistema.
Risultato desiderato: si ricevono avvisi tempestivi, pertinenti e fruibili per l'identificazione e la mitigazione rapida di potenziali problemi, soprattutto quando i risultati dei KPI sono a rischio.
Anti-pattern comuni:
-
Si impostano troppi avvisi non critici, con conseguente affaticamento da avvisi ("alert fatigue").
-
Non viene data priorità agli avvisi in base ai KPI, il che rende difficile comprendere l'impatto dei problemi sull'azienda.
-
Non affrontare le cause principali porta a ricevere avvisi ripetuti per lo stesso problema.
Vantaggi dell'adozione di questa best practice:
-
Riduzione dell'affaticamento da avvisi ("alert fatigue") concentrandosi su avvisi pertinenti e fruibili.
-
Maggiore operatività e affidabilità del sistema grazie al rilevamento e alla mitigazione proattiva dei problemi.
-
Migliore collaborazione tra team e risoluzione più rapida dei problemi grazie all'integrazione con i più diffusi strumenti di avviso e comunicazione.
Livello di rischio associato se questa best practice non fosse adottata: elevato
Guida all'implementazione
Per creare un meccanismo di avviso efficace, è fondamentale utilizzare metriche, log e dati di tracciamento che segnalino quando i risultati basati sui KPI sono a rischio o vengono rilevate anomalie.
Passaggi dell'implementazione
-
Determina gli indicatori chiave di prestazione (KPI): identifica i KPI dell'applicazione. Gli avvisi devono essere correlati a questi KPI per riflettere accuratamente l'impatto aziendale.
-
Implementa il rilevamento delle anomalie:
-
Usa il rilevamento delle anomalie Amazon CloudWatch: configura il rilevamento delle anomalie Amazon CloudWatch per rilevare automaticamente modelli insoliti e generare avvisi solo per anomalie reali.
-
Utilizza AWS X-Ray Insights:
-
Configura X-Ray Insights per rilevare anomalie nei dati di tracciamento.
-
Configura le notifiche per X-Ray Insights per ricevere avvisi quando si rilevano problemi.
-
-
Esegui l'integrazione con Amazon DevOps Guru:
-
Utilizza Amazon DevOps Guru
e le sue capacità di machine learning per rilevare anomalie operative nei dati esistenti. -
Accedi alle impostazioni di notifica in DevOps Guru per configurare gli avvisi per le anomalie.
-
-
-
Implementa avvisi fruibili: progetta avvisi che forniscano informazioni adeguate per intraprendere un'azione immediata.
-
Monitora gli eventi AWS Health con le regole Amazon EventBridge o integra a livello di programmazione l'API AWS Health per automatizzare le azioni quando ricevi eventi AWS Health. Possono essere azioni generali, come l'invio di tutti i messaggi pianificati sugli eventi del ciclo di vita a un'interfaccia di chat, oppure azioni specifiche, come l'avvio di un flusso di lavoro in uno strumento di gestione dei servizi IT.
-
-
Riduci l'affaticamento da avvisi: riduci al minimo gli avvisi non critici. Quando i team sono sovraccaricati da numerosi avvisi insignificanti, possono trascurare i problemi critici, riducendo l'efficacia complessiva del meccanismo di avviso.
-
Configura allarmi compositi: utilizza gli allarmi compositi Amazon CloudWatch
per raggruppare più allarmi. -
Integra strumenti di avviso: incorpora strumenti come Ops Genie
e PagerDuty . -
Integra AWS Chatbot: integra AWS Chatbot
per inoltrare avvisi a Amazon Chime, Microsoft Teams e Slack. -
Usa l'avviso basato sui log: utilizza i filtri delle metriche dei log in CloudWatch per creare allarmi basati su eventi di log specifici.
-
Rivedi e itera: riesamina e perfeziona regolarmente le configurazioni degli avvisi.
Livello di impegno per il piano di implementazione: medio
Risorse
Best practice correlate:
Documenti correlati:
Video correlati:
Esempi correlati: