Automatizzazione della strategia di ripristino di emergenza - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Automatizzazione della strategia di ripristino di emergenza

Puoi facoltativamente scegliere di implementare un'automazione totale o parziale per ottenere un migliore controllo del ripristino di emergenza. Se utilizzi l'opzione di backup e ripristino di emergenza, puoi automatizzare i backup tramite AWS Backup, che supporta tutti i database Amazon RDS, nonché le tabelle DynamoDB, Amazon DocumentDB e Amazon Neptune.

Rilevamento di eventi di emergenza

Per ridurre i tempi di ripristino, puoi considerare la possibilità di automatizzare il rilevamento di un evento a livello regionale, che può quindi avviare il failover nella regione di ripristino di emergenza. Per implementare il rilevamento automatico e ottenere un RTO più stringente, puoi creare una soluzione basata su controlli dell'integrità. Questi controlli dell'integrità non si limitano agli heartbeat, che verificano se i moduli del piano di controllo (control-plane) e del piano dati all'interno di una rete sono in grado di comunicare tra loro, ma approfondiscono la valutazione della natura interrelata dei componenti dell'applicazione per ottenere una previsione accurata. Tuttavia, una soluzione automatizzata può comportare il rischio di falsi allarmi, che possono portare a failover non necessari. In questo caso è necessario prestare attenzione, poiché i failover non necessari introducono problemi di disponibilità per l'azienda. Puoi inoltre confermazione l'esecuzione di un failover creando sostituzioni manuali nel flusso di lavoro. Per rimanere aggiornato sulle interruzioni a livello di servizio, puoi sottoscrivere il feed RSS Service Health Dashboard. Inoltre, puoi utilizzare AWS Health Dashboard(richiede un AWS account) all'interno della tua regione e del tuo account principali per rimanere informato sugli eventi che possono influire sul tuo account. Ciò ti consente di prendere una decisione informata sull'esecuzione del failover in caso di evento a livello regionale.

Failover

Indipendentemente dalla strategia di ripristino di emergenza scelta, puoi creare soluzioni di automazione di ripristino di emergenza personalizzate per eseguire il failover nella regione interessata. Questa automazione può ridurre al minimo la necessità di interventi manuali e fornire un maggiore controllo nel testare la soluzione di ripristino di emergenza. Puoi scegliere tra il AWS servizio APIs, che AWS fornisce in più lingue come Python, PHP JavaScript, .NET, Ruby, Java, Go, Node.js e C++, in base alle preferenze della tua organizzazione. Per creare un'automazione che utilizzi questi AWS servizi APIs, dovresti innanzitutto concentrarti sulla trasformazione dell'infrastruttura del database in codice sotto forma di AWS CloudFormation modelli Terraform. Questi modelli possono aiutarti ad automatizzare il failover di diversi database, oltre a mantenere l'ordine in cui i componenti dell'applicazione e del database vengono ripristinati nella regione di ripristino di emergenza.

Ai fini del ripristino di emergenza, ti consigliamo di concentrarti su questi due obiettivi:

  • CloudFormation Gli stack esistenti dovrebbero esportare le informazioni pertinenti sui database, inclusi i nomi delle istanze e gli endpoint. I processi di automazione possono fare riferimento a questi valori di esportazione all'interno di una regione ed eseguire operazioni per facilitare il ripristino di emergenza.

  • Se disponi di risorse in produzione ma non hai uno CloudFormation stack associato, dovresti concentrarti sulla creazione di pile per tali risorse. Assicurati inoltre che questi stack coprano i valori di esportazione corretti, come indicato nel punto precedente.

Una volta raggiunti questi due obiettivi, puoi creare soluzioni di automazione nella lingua preferita dalla tua organizzazione per sfruttare CloudFormation le esportazioni ed eseguire automaticamente le azioni necessarie in caso di emergenza. Ad esempio, se disponi di un datastore globale ElastiCache (Redis OSS) distribuito come CloudFormation modello, il codice di automazione ha accesso alle CloudFormation esportazioni che forniscono dettagli sul datastore globale. In caso di emergenza, il codice può promuovere automaticamente il datastore secondario al datastore primario senza alcun intervento manuale utilizzando il servizio (Redis OSS). ElastiCache APIs

In uno scenario tipico, l'automazione dovrebbe essere scalabile per più database all'interno dell'organizzazione. Puoi dimensionare le soluzioni di automazione per diversi database utilizzando AWS Step Functions o AWS Batch.