Risposta agli eventi - Principio dell'eccellenza operativa

Risposta agli eventi

È consigliabile poter prevedere eventi operativi, sia previsti (per esempio vendite promozionali, distribuzioni e test di vulnerabilità) che imprevisti (per esempio aumenti nell'utilizzo della soluzione ed errori nei suoi componenti). Si dovrebbero utilizzare istruzioni e manuali propri per fornire risultati coerenti nella risposta agli avvisi. Gli avvisi definiti dovrebbero essere controllati da un ruolo o da un team responsabile per la risposta e le escalation. Dovrai conoscere l'impatto aziendale dei componenti del tuo sistema e utilizzarlo per concentrare gli sforzi quando necessario. Dopo ogni evento, dovrai effettuare un'analisi della causa principale (RCA) al fine di evitare il ripetersi di errori o l'utilizzo di soluzioni temporanee.

AWS semplifica la tua risposta agli eventi fornendo strumenti che supportano tutti gli aspetti del tuo carico di lavoro e le operazioni in forma di codice. Tali strumenti ti danno modo di scrivere script di risposta agli eventi delle operazioni e attivare la loro esecuzione in risposta ai dati di monitoraggio.

In AWS, è possibile migliorare il tempo di recupero sostituendo i componenti difettosi con versioni sicuramente funzionanti piuttosto che tentarne la riparazione. Puoi eseguire l'analisi sulla risorsa guasta in un secondo momento fuori banda.