Risposta agli eventi

È consigliabile poter prevedere eventi operativi, sia previsti (ad esempio vendite promozionali, implementazioni e test di vulnerabilità) che imprevisti (ad esempio aumenti nell'utilizzo della soluzione ed errori nei suoi componenti). Si dovrebbero utilizzare runbook and playbook esistenti per fornire risultati coerenti nella risposta agli avvisi. Gli avvisi definiti dovrebbero essere controllati da un ruolo o da un team responsabile per la risposta e le escalation. Dovrai conoscere l'impatto aziendale dei componenti del tuo sistema e utilizzarlo per concentrare gli sforzi quando necessario. Dopo ogni evento, dovrai effettuare un'analisi della causa principale (RCA) al fine di evitare il ripetersi di errori o l'utilizzo di soluzioni temporanee.

AWS semplifica la tua risposta agli eventi fornendo strumenti che supportano tutti gli aspetti del tuo carico di lavoro e le operazioni in forma di codice. Tali strumenti ti danno modo di scrivere script di risposta agli eventi delle operazioni e avviare la loro esecuzione in risposta ai dati di monitoraggio.

In AWS, è possibile migliorare il tempo di recupero sostituendo i componenti difettosi con versioni sicuramente funzionanti piuttosto che tentarne la riparazione. Puoi eseguire l'analisi sulla risorsa guasta in un secondo momento fuori banda.

Best practice

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

OPS09-BP03 Rivedi le metriche operative e dai priorità al miglioramento

OPS10-BP01 Utilizzo di un processo per la gestione di eventi, incidenti e problemi