Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
REL06-BP06 Revisione periodica dell'ambito e delle metriche di monitoraggio
Esegui revisioni frequenti della modalità di implementazione del monitoraggio del carico di lavoro e aggiornarla in base all'evoluzione del carico di lavoro e della relativa architettura. Gli audit regolari del monitoraggio aiutano a ridurre il rischio di indicatori di problemi mancati o trascurati e aiutano ulteriormente il carico di lavoro a raggiungere gli obiettivi di disponibilità.
Un monitoraggio efficace si basa su metriche aziendali chiave, che si evolvono in base al cambiamento delle priorità aziendali. Il processo di revisione del monitoraggio deve porre l'accento sugli indicatori del livello di servizio (SLI) e incorporare le informazioni approfondite provenienti dall'infrastruttura, dalle applicazioni, dai client e dagli utenti.
Risultato desiderato: disponi di una strategia di monitoraggio efficace che viene regolarmente rivista e aggiornata periodicamente, oltre che dopo qualsiasi evento o cambiamento significativo. Verifichi che gli indicatori chiave di integrità dell'applicazione siano ancora pertinenti con l'evoluzione del carico di lavoro e dei requisiti aziendali.
Anti-pattern comuni:
-
Raccogli solo metriche predefinite.
-
Hai impostato una strategia di monitoraggio, ma non esegui mai alcuna revisione.
-
Non discuti il monitoraggio quando vengono distribuite modifiche importanti.
-
Fai affidamento a metriche obsolete per determinare l'integrità del carico di lavoro.
-
I team operativi sono sommersi da avvisi falsi positivi dovuti a metriche e soglie obsolete.
-
Manca l'osservabilità dei componenti dell'applicazione che non vengono monitorati.
-
Ti concentri solo su metriche tecniche di basso livello ed escludi le metriche aziendali dal monitoraggio.
Vantaggi dell'adozione di questa best practice: una revisione regolare del monitoraggio consente di anticipare i potenziali problemi e di verificare la capacità di rilevarli. Inoltre, consente di scoprire i punti ciechi che potrebbero essere sfuggiti durante le revisioni precedenti, migliorando ulteriormente la capacità di individuare i problemi.
Livello di rischio associato se questa best practice non fosse adottata: medio
Guida all'implementazione
Rivedi le metriche di monitoraggio e l'ambito durante il processo di revisione della prontezza operativa (ORR). Esegui periodicamente revisioni della prontezza operativa per valutare se ci sono lacune tra il carico di lavoro attuale e il monitoraggio configurato. Stabilisci una cadenza regolare per le revisioni delle prestazioni operative e la condivisione delle conoscenze per migliorare la capacità di ottenere prestazioni più elevate dai team operativi. Convalida se le soglie di allarme esistenti sono ancora adeguate e verifica le situazioni in cui i team operativi ricevono avvisi falsi positivi o non monitorano aspetti dell'applicazione che invece devono esserlo.
Il framework di analisi della resilienza fornisce indicazioni utili che possono aiutare a esplorare il processo. L'obiettivo del framework è identificare le potenziali modalità di errore e i controlli preventivi e correttivi da utilizzare per mitigare l'impatto. Queste conoscenze possono aiutare a identificare le metriche e gli eventi giusti da monitorare e segnalare.
Passaggi dell'implementazione
-
Pianifica ed effettua revisioni periodiche dei pannelli di controllo del carico di lavoro. La frequenza può essere diversa a seconda di quanto l'ispezione sia approfondita.
-
Ispeziona l'andamento nei parametri. Confronta i valori dei parametri con i valori storici per vedere se ci sono tendenze che potrebbero suggerire l'esame di un particolare aspetto. Esempi di questo tipo sono l'aumento della latenza, la riduzione della funzione aziendale primaria e l'aumento delle risposte agli errori.
-
Esamina i valori anomali e le anomalie nelle metriche, che possono essere mascherate dalle medie o dalle mediane. Osserva i valori più alti e più bassi durante l'arco temporale e indaga sulle cause di osservazioni che sono molto al di fuori dei limiti normali. Continuando a eliminare queste cause, puoi restringere i limiti delle metriche previste in risposta al miglioramento della coerenza delle prestazioni del carico di lavoro.
-
Ricerca di bruschi cambiamenti nel comportamento. Un cambiamento immediato nella quantità o nella direzione di una metrica può indicare che si è verificato un cambiamento nell'applicazione o nei fattori esterni che potrebbe richiedere l'aggiunta di ulteriori metriche da monitorare.
-
Verifica se l'attuale strategia di monitoraggio rimane pertinente per l'applicazione. Sulla base di un'analisi degli incidenti precedenti (o del framework di analisi della resilienza), valuta se ci sono ulteriori aspetti dell'applicazione che dovrebbero essere incorporati nell'ambito del monitoraggio.
-
Esamina le metriche di monitoraggio dell'utente reale (RUM, Real User Monitoring) per determinare se ci sono lacune nella copertura delle funzionalità dell'applicazione.
-
Rivedi il processo di gestione del cambiamento. Se necessario, aggiorna le procedure per includere una fase di analisi di monitoraggio da eseguire prima di approvare una modifica.
-
Implementa la revisione del monitoraggio come parte della revisione della prontezza operativa e dei processi di correzione degli errori.
Risorse
Best practice correlate
Documenti correlati: