REL13-BP03 Testar a implementação da recuperação de desastres para validá-la
Teste regularmente o failover no site de recuperação para verificar se a operação está correta e que o RTO e o RPO sejam cumpridos.
Antipadrões comuns:
-
Nunca execute failovers na produção.
Benefícios do estabelecimento dessa prática recomendada: testar regularmente seu plano de recuperação de desastres garante que ele funcione quando necessário e que sua equipe saiba como executar a estratégia.
Nível de exposição a riscos quando esta prática recomendada não é estabelecida: alto
Orientações para a implementação
Um padrão que deve ser evitado é o desenvolvimento de caminhos de recuperação que raramente são executados. Por exemplo, você pode ter um repositório de dados secundário utilizado para consultas somente leitura. Quando você grava em um repositório de dados e o repositório de dados primário falha, pode ser necessário fazer o failover para o repositório de dados secundário. Se você não testar esse failover com frequência, poderá descobrir que suas suposições sobre as capacidades do armazenamento de dados secundário são incorretas. A capacidade do secundário, que talvez tenha sido suficiente quando testado pela última vez, pode não conseguir mais tolerar a carga nesse cenário. Nossa experiência mostrou que a única recuperação de erro que funciona é o caminho que você testa com frequência. É por isso que é melhor ter um pequeno número de caminhos de recuperação. Você pode estabelecer padrões de recuperação e testá-los regularmente. Se você tiver um caminho de recuperação complexo ou crítico, ainda precisará executar regularmente essa falha na produção para garantir o funcionamento desse caminho. No exemplo que acabamos de discutir, você deve realizar o failover para o standby regularmente, não importa a necessidade.
Etapas da implementação
Projete suas cargas de trabalho para recuperação. Teste regularmente seus caminhos de recuperação. A computação orientada para a recuperação identifica as características em sistemas que aprimoram a recuperação: isolamento e redundância, capacidade de reverter alterações em todo o sistema, capacidade de monitorar e determinar a integridade, capacidade de realizar diagnósticos, recuperação automatizada, design modular e capacidade de reinicialização. Pratique o caminho da recuperação para verificar se é possível realizá-la no tempo especificado para o estado determinado. Use seus runbooks durante essa recuperação para documentar problemas e encontrar soluções para eles antes do próximo teste.
Para workloads com base no Amazon EC2, use o AWS Elastic Disaster Recovery para implementar e iniciar instâncias de simulação para a estratégia de DR. O AWS Elastic Disaster Recovery permite executar simulações com eficiência, o que ajuda você a se preparar para um evento de failover. Também é possível iniciar frequentemente as instâncias usando o Elastic Disaster Recovery para fins de teste e simulação sem redirecionar o tráfego.
Recursos
Documentos relacionados:
-
Parceiro do APN: parceiros que podem ajudar com a recuperação de desastres
-
Blog de arquitetura da AWS: série de recuperação de desastres
-
AWS Marketplace: produtos que podem ser usados para recuperação de desastres
-
Recuperação de desastres de workloads na AWS: recuperação na nuvem (whitepaper da AWS)
-
AWS Elastic Disaster Recovery Preparing for Failover (AWS Elastic Disaster Recovery: preparação para failover)
-
O projeto de computação orientado por recuperação de Berkeley/Stanford
-
What is AWS Fault Injection Simulator? (O que e o AWS Fault Injection Simulator?)
Vídeos relacionados:
-
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications
(AWS re:Invent 2018: padrões de arquitetura para aplicações ativas/ativas de várias regiões) -
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS
(AWS re:Invent 2019: soluções de backup e restauração e de recuperação de desastres com a AWS)
Exemplos relacionados:
-
Well-Architected Lab - Testing for Resiliency
(Laboratório do Well-Architected: teste de resiliência)