REL09-BP04 Execute a recuperação periódica dos dados para verificar a integridade e os processos de backup - Pilar Confiabilidade

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

REL09-BP04 Execute a recuperação periódica dos dados para verificar a integridade e os processos de backup

Valide se a implementação do processo de backup atende aos objetivos de tempo de recuperação (RTO) e aos objetivos de ponto de recuperação (RPO) realizando um teste de recuperação.

Resultado desejado: os dados dos backups são recuperados periodicamente usando mecanismos bem definidos para verificar se a recuperação é possível dentro do objetivo de tempo de recuperação estabelecido (RTO) para a carga de trabalho. Verifique se a restauração de um backup resulta em um recurso que contém os dados originais sem que nenhum deles seja corrompido ou inacessível e com perda de dados dentro do objetivo do ponto de recuperação (RPO).

Práticas comuns que devem ser evitadas:

  • Restaurar um backup, mas não consultar ou recuperar os dados para garantir que a restauração é utilizável.

  • Presumir a existência de um backup.

  • Presumir que o backup de um sistema esteja totalmente operacional e que os dados possam ser recuperados.

  • Supondo que o tempo para restaurar ou recuperar dados de um backup esteja dentro da RTO carga de trabalho.

  • Supondo que os dados contidos no backup estejam dentro da carga RPO de trabalho

  • Restaurar ad hoc, sem usar um runbook ou não seguir um procedimento automatizado estabelecido.

Benefícios de estabelecer essa prática recomendada: testar a recuperação dos backups verifica se os dados podem ser restaurados quando necessário, sem a preocupação de que os dados possam estar ausentes ou corrompidos, que a restauração e a recuperação sejam possíveis dentro da RTO carga de trabalho e que qualquer perda de dados esteja dentro da carga RPO de trabalho.

Nível de risco exposto se esta prática recomendada não for estabelecida: Médio

Orientação para implementação

Testar o recurso de backup e restauração aumenta a confiança na capacidade de realizar essas ações durante uma interrupção. Restaure periodicamente os backups em um novo local e execute testes para verificar a integridade dos dados. Alguns testes comuns que devem ser realizados são verificar se todos os dados estão disponíveis, não estão corrompidos, estão acessíveis e se qualquer perda de dados está dentro da RPO carga de trabalho. Esses testes também podem ajudar a determinar se os mecanismos de recuperação são rápidos o suficiente para acomodar a carga de trabalho. RTO

Usando AWS, você pode criar um ambiente de teste e restaurar seus backups para avaliar os RPO recursos RTO e executar testes sobre o conteúdo e a integridade dos dados.

Além disso, a Amazon RDS e o Amazon DynamoDB point-in-time permitem a recuperação (). PITR Ao usar o backup contínuo, você pode restaurar o conjunto de dados para o estado em que ele se encontrava em uma data e hora especificadas.

Se todos os dados estiverem disponíveis, não estiverem corrompidos, estiverem acessíveis e qualquer perda de dados estiver dentro da RPO carga de trabalho. Esses testes também podem ajudar a determinar se os mecanismos de recuperação são rápidos o suficiente para acomodar a carga de trabalho. RTO

AWS Elastic Disaster Recovery oferece instantâneos de point-in-time recuperação contínua dos volumes da AmazonEBS. À medida que os servidores de origem são replicados, point-in-time os estados são registrados ao longo do tempo com base na política configurada. O Elastic Disaster Recovery ajuda você a verificar a integridade desses snapshots lançando instâncias para fins de teste e detalhamento sem redirecionar o tráfego.

Etapas de implementação

  1. Identifique as fontes de dados que estão sendo copiadas no momento e onde esses backups estão sendo armazenados. Para obter orientações de implementação, consulte REL09-BP01 Identifique e faça backup de todos os dados que precisam ser copiados ou reproduza os dados das fontes.

  2. Estabeleça critérios para validação de dados para cada fonte de dados. Diferentes tipos de dados terão propriedades distintas que podem exigir mecanismos de validação diferentes. Considere como validar esses dados antes de se sentir confiante em usá-los na produção. Algumas maneiras comuns de validar dados são o uso de dados e propriedades de backup, como tipo de dados, formato, soma de verificação, tamanho ou uma combinação deles com lógica de validação personalizada. Por exemplo, pode ser uma comparação dos valores de soma de verificação entre o recurso restaurado e a fonte de dados no momento em que o backup foi criado.

  3. Estabeleça RTO e RPO restaure os dados com base na criticidade dos dados. Para obter orientações de implementação, consulte REL13-BP01 Definir objetivos de recuperação para tempo de inatividade e perda de dados.

  4. Avalie sua capacidade de recuperação. Analise sua estratégia de backup e restauração para entender se ela pode atender às suas RTO necessidades e ajuste a estratégia conforme necessário. RPO Usando o Hub de Resiliência da AWS, você pode executar uma avaliação da sua workload. A avaliação avalia a configuração do seu aplicativo em relação à política de resiliência e relata se suas RTO RPO metas podem ser atingidas.

  5. Faça uma restauração de teste usando os processos atualmente estabelecidos usados na produção para restauração de dados. Esses processos dependem de como foi feito o backup da fonte de dados original, do formato e do local de armazenamento do próprio backup ou se os dados são reproduzidos de outras fontes. Por exemplo, se você estiver usando um serviço gerenciado como o AWS Backup, isso poderá ser tão simples quanto restaurar o backup em um novo recurso. Se você usou o AWS Elastic Disaster Recovery , pode iniciar um exercício de recuperação.

  6. Valide a recuperação de dados do recurso restaurado com base nos critérios que você estabeleceu anteriormente para validação de dados. Os dados restaurados e recuperados contêm o registro ou item mais recente no momento do backup? Esses dados se enquadram na carga RPO de trabalho?

  7. Meça o tempo necessário para restauração e recuperação e compare-o com o estabelecidoRTO. Esse processo se enquadra na carga RTO de trabalho? Por exemplo, compare o carimbo de data/hora em que o processo de restauração foi iniciado e que a validação da recuperação foi concluída para calcular quanto tempo esse processo demora. Todas as AWS API chamadas têm data e hora e essas informações estão disponíveis em. AWS CloudTrail Embora essas informações possam fornecer detalhes sobre o início do processo de restauração, o carimbo final de data/hora da conclusão da validação deve ser registrado pela lógica de validação. Se estiver usando um processo automatizado, serviços como o Amazon DynamoDB poderão ser usados para armazenar essas informações. Além disso, muitos AWS serviços fornecem um histórico de eventos que fornece informações com data e hora de quando determinadas ações ocorreram. No interior AWS Backup, as ações de backup e restauração são chamadas de trabalhos, e esses trabalhos contêm informações de data e hora como parte de seus metadados, que podem ser usados para medir o tempo necessário para restauração e recuperação.

  8. Notifique as partes interessadas se a validação de dados falhar ou se o tempo necessário para restauração e recuperação exceder o estabelecido RTO para a carga de trabalho. Ao implementar a automação para fazer isso, como neste laboratório, serviços como o Amazon Simple Notification Service (AmazonSNS) podem ser usados para enviar notificações push, como e-mail ou SMS para partes interessadas. Essas mensagens também podem ser publicadas em aplicativos de mensagens, como Amazon Chime, Slack ou Microsoft Teams, ou usadas para criar tarefas usando o Systems OpsItems Manager AWS. OpsCenter

  9. Automatize esse processo para ser executado periodicamente. Por exemplo, serviços como AWS Lambda o State Machine in AWS Step Functions podem ser usados para automatizar os processos de restauração e recuperação, e a Amazon EventBridge pode ser usada para invocar esse fluxo de trabalho de automação periodicamente, conforme mostrado no diagrama de arquitetura abaixo. Saiba como automatizar a validação da recuperação de dados com o. AWS Backup Além disso, esse laboratório do Well-Architected fornece uma experiência prática sobre uma forma de automatizar várias das etapas descritas aqui.

Diagrama que mostra um processo de backup e restauração automatizado

Figura 9. Um processo de backup e restauração automatizado

Nível de esforço para o plano de implementação: Moderado a alto, dependendo da complexidade dos critérios de validação.

Recursos

Documentos relacionados:

Exemplos relacionados: