REL06-BP04 Automatizzazione delle risposte (elaborazione e avvisi in tempo reale) - Pilastro dell'affidabilità

REL06-BP04 Automatizzazione delle risposte (elaborazione e avvisi in tempo reale)

Utilizza l'automazione per agire quando viene rilevato un evento; ad esempio, per sostituire i componenti guasti.

L'elaborazione automatizzata in tempo reale degli allarmi è implementata in modo che i sistemi possano effettuare azioni correttive rapide e tentare di prevenire guasti o danni al servizio quando vengono attivati gli allarmi. Le risposte automatiche agli allarmi potrebbero includere la sostituzione dei componenti guasti, la regolazione della capacità di calcolo, il reindirizzamento del traffico verso host integri, zone di disponibilità o altre regioni e la notifica agli operatori.

Risultato desiderato: identificazione degli allarmi in tempo reale e impostazione dell'elaborazione automatica degli allarmi per richiamare le azioni appropriate intraprese per rispettare gli obiettivi dei livelli di servizio e gli accordi sul livello di servizio (SLA) L'automazione può interessare un ambito che va dalle attività di autoriparazione dei singoli componenti al failover dell'intero sito.

Anti-pattern comuni:

  • Non disporre di un inventario o un catalogo dettagliato dei principali allarmi in tempo reale.

  • Nessuna risposta automatica in caso di allarmi critici (ad esempio, quando le risorse di calcolo stanno per esaurirsi, viene implementato il dimensionamento automatico).

  • Azioni di risposta agli allarmi contraddittorie.

  • Nessuna procedura operativa standard (SOP) da seguire per gli operatori quando ricevono notifiche di avviso.

  • Non monitorare le modifiche apportate alla configurazione, poiché le modifiche della configurazione non rilevate possono causare tempi di inattività per i carichi di lavoro.

  • Non avere una strategia per annullare le modifiche involontarie alla configurazione.

Vantaggi dell'adozione di questa best practice: migliore resilienza del sistema grazie all'automazione dell'elaborazione degli allarmi. Il sistema implementa automaticamente azioni correttive, riducendo le attività manuali che possono comportare interventi umani soggetti a errori. L'operatività del carico di lavoro soddisfa gli obiettivi di disponibilità e riduce le interruzioni del servizio.

Livello di rischio associato se questa best practice non fosse adottata: medio

Guida all'implementazione

Per gestire in modo efficiente gli avvisi e automatizzarne la risposta, classifica gli avvisi in base alla loro criticità e al loro impatto, documenta le procedure di risposta e pianifica le risposte prima di classificare le attività.

Identifica le attività che richiedono azioni specifiche (spesso dettagliate nei runbook) ed esamina tutti i runbook e i playbook per determinare quali attività possono essere automatizzate. Se è possibile definire delle azioni, significa che esse spesso possono essere automatizzate. Se le azioni non possono essere automatizzate, documenta le fasi manuali in una procedura operativa standard (SOP) e forma gli operatori su tali procedure. Continua ad analizzare dettagliatamente i processi manuali alla ricerca di opportunità di automazione in cui puoi stabilire e mantenere un piano per automatizzare le risposte agli avvisi.

Passaggi dell'implementazione

  1. Crea un inventario degli allarmi: per ottenere un elenco di tutti gli allarmi, utilizza AWS CLI mediante il comando describe-alarms di Amazon CloudWatch. In base al numero di allarmi impostati, potrebbe essere necessario utilizzare la paginazione per recuperare un sottoinsieme di allarmi per ciascuna chiamata o, in alternativa, è possibile utilizzare l'SDK AWS per recuperare gli allarmi utilizzando una chiamata API.

  2. Documenta tutte le azioni associate all'allarme: aggiorna un runbook con tutti gli allarmi e le relative azioni, a prescindere che siano manuali o automatizzati. AWS Systems Manager offre runbook predefiniti. Per informazioni sull'uso dei runbook, consulta Working with runbooks. Per informazioni sulla visualizzazione dei contenuti dei runbook, consulta Visualizza il contenuto del runbook.

  3. Configura e gestisci le azioni associate all'allarme: per tutti gli allarmi che richiedono un'azione, specifica l'azione automatizzata mediante l'SDK CloudWatch. Ad esempio, puoi modificare automaticamente lo stato delle tue istanze Amazon EC2 in base a un allarme CloudWatch creando e abilitando o disabilitando le azioni associate a un allarme.

    Puoi utilizzare Amazon EventBridge per rispondere automaticamente agli eventi di sistema, come i problemi relativi alla disponibilità delle applicazioni o le modifiche delle risorse. Puoi creare regole che indichino a quali eventi sei interessato e quali operazioni automatizzate eseguire quando un evento corrisponde a una regola. Le azioni avviabili in automatico includono il richiamare una funzione AWS Lambda, il richiamare Run Command di Amazon EC2, l'inoltro dell'evento al flusso di dati Amazon Kinesis e la visualizzazione del comando Automate di Amazon EC2 mediante EventBridge.

  4. Procedure operative standard (SOP): in base ai componenti dell'applicazione, AWS Resilience Hub suggerisce più modelli SOP. È possibile utilizzare queste SOP per documentare tutti i processi che un operatore deve seguire nel caso in cui venga generato un avviso. È altresì possibile creare una SOP in base alle raccomandazioni di Resilience Hub, laddove sia necessaria un'applicazione Resilience Hub con una policy di resilienza associata, nonché valutare a livello cronologico la resilienza rispetto a tale applicazione. Le raccomandazioni per la SOP sono prodotte dalla valutazione della resilienza.

    Resilience Hub lavora in sinergia con Systems Manager per automatizzare le fasi delle SOP, fornendo una serie di documenti SSM utilizzabili come base per tali SOP. Ad esempio, Resilience Hub può consigliare una SOP per aggiungere spazio su disco in base a un documento SSM di automazione esistente.

  5. Esegui azioni automatizzate utilizzando Amazon DevOps Guru: puoi usare Amazon DevOps Guru per monitorare automaticamente le risorse dell'applicazione al fine di rilevare comportamenti anomali e fornire raccomandazioni mirate per accelerare i tempi di identificazione e riparazione dei problemi. DevOps Guru consente di monitorare flussi di dati operativi quasi in tempo reale da più origini, tra cui i parametri di Amazon CloudWatch, AWS Config, AWS CloudFormation e AWS X-Ray. Inoltre, puoi usare DevOps Guru per creare in automatico OpsItems in OpsCenter e inviare eventi a EventBridge per un ulteriore livello di automazione.

Risorse

Best practice correlate:

Documenti correlati:

Video correlati:

Esempi correlati: