REL11-BP01 Monitoraggio di tutti i componenti del carico di lavoro per la rilevazione dei guasti
Monitora costantemente lo stato del carico di lavoro, in modo che tu e i tuoi sistemi automatizzati siate consapevoli di errori o guasti non appena si verificano. Monitora gli indicatori chiave di prestazioni (KPI) in base al valore aziendale.
Tutti i meccanismi di ripristino e correzione devono essere in grado di rilevare rapidamente i problemi. I guasti tecnici devono essere rilevati prima in modo che possano essere risolti. Tuttavia, la disponibilità si basa sulla capacità del carico di lavoro di fornire valore aziendale, quindi gli indicatori chiave di prestazione (KPI) che misurano questo aspetto devono far parte della strategia di rilevamento e correzione.
Risultato desiderato: I componenti essenziali di un carico di lavoro vengono monitorati in modo indipendente per rilevare guasti e fornire avvisi quando e dove si verificano.
Anti-pattern comuni:
-
Non sono stati configurati allarmi, pertanto le interruzioni si verificano senza notifica.
-
Gli allarmi esistono, ma a soglie che non forniscono tempo adeguato per reagire.
-
I parametri non vengono raccolti abbastanza spesso da soddisfare l'obiettivo di tempo di ripristino (RTO, recovery time objective).
-
Solo le interfacce del carico di lavoro rivolte al cliente vengono monitorate attivamente.
-
Viene effettuata solo la raccolta di parametri tecnici, senza includere quelli delle funzioni aziendali.
-
Non è presente alcun parametro che misuri l'esperienza utente del carico di lavoro.
-
Vengono creati troppi monitoraggi.
Vantaggi dell'adozione di questa best practice: Eseguire un monitoraggio appropriato a tutti i livelli consente di ridurre i tempi di rilevamento, velocizzando quindi il ripristino.
Livello di rischio associato se questa best practice non fosse adottata: alto
Guida all'implementazione
Identifica tutti i carichi di lavoro che verranno esaminati per il monitoraggio. Dopo aver identificato tutti i componenti del carico di lavoro da monitorare, devi determinare l'intervallo di monitoraggio. L'intervallo di monitoraggio ha un impatto diretto sulla velocità con cui il ripristino viene avviato, che dipende dal tempo impiegato per rilevare un errore. Il tempo medio di rilevamento (MTTD) è il tempo che intercorre tra il verificarsi di un guasto e l'inizio delle operazioni di riparazione. L'elenco dei servizi deve essere ampio e completo.
Il monitoraggio deve includere tutti i livelli dello stack applicativo, come applicazione, piattaforma, infrastruttura e rete.
La strategia di monitoraggio deve tenere in considerazione l'impatto di guasti nell'area grigia. Per ulteriori dettagli sui guasti nell'area grigia, consulta il whitepaper Gray failures in the Advanced Multi-AZ Resilience Patterns
Passaggi dell'implementazione
-
L'intervallo di monitoraggio dipende dalla velocità con cui è necessario ripristinare Il tempo di ripristino dipende dal tempo necessario a ripristinare, perciò è necessario determinare la frequenza della raccolta considerando tale tempo e l'obiettivo di tempo di ripristino (RTO, recovery time objective).
-
Configura il monitoraggio dettagliato per componenti e servizi gestiti.
-
Determina se il monitoraggio dettagliato per le istanze EC2 e Auto Scaling è necessario. Il monitoraggio dettagliato fornisce metriche a intervalli di un minuto, mentre il monitoraggio predefinito fornisce metriche a intervalli di cinque minuti.
-
Determina se il monitoraggio avanzato per RDS è necessario. Il monitoraggio avanzato utilizza un agente sulle istanze RDS per ottenere informazioni utili su diversi processi o thread.
-
Determina i requisiti di monitoraggio dei componenti serverless critici per Lambda, API Gateway, Amazon EKS, Amazon ECS
e tutti i tipi di sistema di bilanciamento del carico. -
Determina i requisiti di monitoraggio dei componenti di archiviazione per Amazon S3, Amazon FSx, Amazon EFSe Amazon EBS.
-
-
Crea metriche personalizzate per misurare gli indicatori di prestazione (KPI) fondamentali per il tuo business. I carichi di lavoro implementano funzioni aziendali fondamentali, che devono essere utilizzate come KPI che aiutano a identificare quando si verifica un problema indiretto.
-
Monitoraggio della presenza di errori nell'esperienza utente tramite le canary degli utenti Test delle transazioni sintetiche (noto anche come test canary, ma da non confondere con l'implementazione canary) è uno dei processi di test più importanti in quanto è in grado di eseguire e simulare il comportamento dei clienti. Esegui questi test costantemente sugli endpoint del carico di lavoro da diverse posizioni remote.
-
Crea metriche personalizzate che monitorino l'esperienza dell'utente. Dotare l'esperienza del cliente di strumenti consente di determinare quando essa peggiora.
-
Imposta allarmi per rilevare quando una qualsiasi parte del carico di lavoro non funziona correttamente e per indicare quando dimensionare automaticamente le risorse. È possibile mostrare visivamente gli allarmi sulle dashboard, inviarli tramite Amazon SNS o e-mail e utilizzarli con Auto Scaling per aumentare o ridurre le risorse del carico di lavoro.
-
Crea dashboard per visualizzare le metriche. Utilizza le dashboard per visualizzare tendenze, valori anomali e altri indicatori di potenziali problemi, oppure per fornire un'indicazione dei problemi che potresti voler approfondire.
-
Crea il monitoraggio del tracciamento distribuito
per i tuoi servizi. Con il monitoraggio distribuito puoi comprendere le prestazioni della tua applicazione e dei relativi servizi sottostanti per identificare e risolvere la causa ultima di problemi ed errori riguardanti le prestazioni. -
Utilizza CloudWatch oppure X-Ray
per creare dashboard di sistemi di monitoraggio e di raccolta dati in una regione e in un account separati. -
Crea l'integrazione per Amazon Health Aware
per consentire il monitoraggio della visibilità sulle risorse AWS che potrebbero presentare un deterioramento. Per i carichi di lavoro aziendali essenziali, questa soluzione fornisce l'accesso ad avvisi proattivi e in tempo reale per i servizi AWS.
Risorse
Best practice correlate:
Documenti correlati:
Video correlati:
Esempi correlati:
Strumenti correlati: