Monitoraggio delle risorse del carico di lavoro - Principio di base dell'affidabilità

Monitoraggio delle risorse del carico di lavoro

I log e i parametri sono strumenti molto efficaci per ottenere informazioni sullo stato del tuo carico di lavoro. È possibile configurare il carico di lavoro in modo da monitorare i log e i parametri e inviare notifiche quando vengono superate le soglie o si verificano eventi significativi. Il monitoraggio consente al carico di lavoro di riconoscere quando vengono superate le soglie di prestazioni basse o si verificano errori, in modo che possa essere ripristinato automaticamente in risposta.

Il monitoraggio è essenziale per accertarti di soddisfare i requisiti di disponibilità. Il monitoraggio deve rilevare efficacemente gli errori. La modalità di errore peggiore è l'errore "silenzioso", in cui la funzionalità non è più attiva, ma non c'è modo di rilevarla se non indirettamente. I tuoi clienti se ne accorgono prima di te. L'avviso in caso di problemi è uno dei principali motivi per cui esegui il monitoraggio. I tuoi avvisi devono essere disaccoppiati dal tuo sistema il più possibile. Se l'interruzione del servizio elimina la funzionalità di avviso, avrai un periodo di interruzione più lungo.

In AWS, dotiamo le nostre applicazioni di strumenti su più livelli. Registriamo latenza, tassi di errore e disponibilità per ogni richiesta, per tutte le dipendenze e per le operazioni chiave all'interno del processo. Registriamo anche parametri di operazioni di successo. Questo ci consente di vedere i problemi imminenti prima che si verifichino. Non consideriamo solo la latenza media. Ci concentriamo ancora di più sui valori anomali di latenza, ad esempio il 99,9° e il 99,99° percentile. Questo perché se una richiesta su 1.000 o 10.000 è lenta, l'esperienza è comunque scarsa. Inoltre, anche se la media può essere accettabile, se una richiesta su 100 provoca una latenza estrema, ciò diventerà un problema man mano che il traffico cresce.

Il monitoraggio su AWS si compone di quattro fasi distinte:

  1. Generazione - monitora tutti i componenti per il carico di lavoro

  2. Aggregazione - definisci e calcola i parametri

  3. Elaborazione in tempo reale e allarmi - invia notifiche e automatizza le risposte

  4. Archiviazione e analisi