REL13-BP01 Definir os objetivos de recuperação para tempo de inatividade e perda de dados
As falhas podem afetar os negócios de várias maneiras. Primeiro, elas podem causar interrupção do serviço (tempo de inatividade). Em segundo lugar, as falhas podem fazer com que os dados se tornem perdidos, inconsistentes ou obsoletos. Para orientar a maneira como você responde e se recupera de falhas, defina um objetivo de tempo de recuperação (RTO) e um objetivo de ponto de recuperação (RPO) para cada workload. O objetivo de tempo de recuperação (RTO) é o atraso aceitável entre a interrupção e a restauração do serviço. O objetivo de ponto de recuperação (RPO) é o tempo máximo aceitável após o último ponto de recuperação de dados.
Resultado desejado: cada workload tem um RTO e um RPO designados com base em considerações técnicas e no impacto comercial.
Práticas comuns que devem ser evitadas:
-
Não designar objetivos de recuperação.
-
Selecionar objetivos de recuperação arbitrários.
-
Selecionar objetivos de recuperação que são muito permissivos e que não atendem aos objetivos de negócios.
-
Não avaliar o impacto do tempo de inatividade e da perda de dados.
-
Selecionar objetivos de recuperação irreais, como tempo de recuperação zerado ou nenhuma perda de dados, o que pode não ser possível para a configuração da workload.
-
Selecionar objetivos de recuperação mais rigorosos do que os objetivos de negócios reais. Isso força implementações de recuperação mais caras e complicadas do que as necessidades da workload.
-
Selecionar objetivos de recuperação incompatíveis com os de uma workload dependente.
-
Deixar de considerar os requisitos regulatórios e de conformidade.
Benefícios de implementar essa prática recomendada: ao definir RTOs e RPOs para as workloads, você estabelece metas claras e mensuráveis de recuperação com base nas necessidades de negócios. Depois de definir essas metas, você pode criar planos de recuperação de desastres (DR) personalizados para atendê-las.
Nível de risco exposto se esta prática recomendada não for estabelecida: Alto
Orientação para implementação
Elabore uma matriz ou planilha para ajudar a orientar o planejamento da recuperação de desastres. Na matriz, crie diferentes categorias ou níveis de workload com base no impacto delas nos negócios (como crítico, alto, médio e baixo) e nas metas de RTO e RPO associadas a cada um. A seguinte matriz fornece um exemplo (observe que os valores de RTO e RPO podem ser diferentes) que você pode seguir:

Exemplo de matriz de recuperação de desastres
Para cada workload, investigue e entenda o impacto do tempo de inatividade e da perda de dados para os negócios. O impacto geralmente aumenta com tempo de inatividade e perda de dados, mas a forma do impacto pode ser diferente com base no tipo de workload. Por exemplo, o tempo de inatividade por até uma hora pode ter baixo impacto, mas depois disso o impacto pode se intensificar rapidamente. O impacto pode assumir várias formas, incluindo impacto financeiro (como perda de receita), impacto sobre a reputação (inclusive perda de confiança do cliente), impacto operacional (como folha de pagamento perdida ou diminuição da produtividade) e risco regulatório. Depois de concluído, atribua a workload ao nível apropriado.
Considere as seguintes perguntas ao analisar o impacto da falha:
-
Qual é o tempo máximo em que a workload pode permanecer inativa antes que um impacto inaceitável ocorra nos negócios?
-
Quanto impacto e de que tipo será causado pela empresa devido a uma interrupção na workload? Considere todos os tipos de impacto, incluindo financeiro, reputacional, operacional e regulatório.
-
Qual é a quantidade máxima de dados que podem ser perdidos ou não recuperados antes que um impacto inaceitável ocorra nos negócios?
-
Os dados perdidos podem ser recriados a partir de outras fontes (também conhecidas como dados derivados)? Nesse caso, considere também os RPOs de todos os dados de origem usados para recriar os dados da workload.
-
Quais são os objetivos de recuperação e as expectativas de disponibilidade das workloads das quais esta depende (downstream)? Os objetivos da workload devem ser alcançáveis com base nos recursos de recuperação das respectivas dependências downstream. Considere possíveis soluções alternativas ou mitigações das dependências downstream que possam melhorar a capacidade de recuperação dessa workload.
-
Quais são os objetivos de recuperação e as expectativas de disponibilidade das workloads que dependem desta (upstream)? Os objetivos da workload upstream podem exigir que ela tenha recursos de recuperação mais rigorosos do que parece à primeira vista.
-
Há objetivos de recuperação diferentes com base no tipo de incidente? Por exemplo, você pode ter RTOs e RPOs diferentes, dependendo se o incidente afeta uma zona de disponibilidade ou uma região inteira.
-
Os objetivos de recuperação mudam durante determinados eventos ou épocas do ano? Por exemplo, você pode ter RTOs e RPOs diferentes em temporadas de compras natalinas, eventos esportivos, vendas especiais e lançamentos de novos produtos.
-
Como os objetivos de recuperação se alinham às estratégias de recuperação de desastres organizacional e de linha de negócios que você possa ter?
-
Há ramificações legais ou contratuais a serem consideradas? Por exemplo, você está contratualmente obrigado a fornecer um serviço com um determinado RTO ou RPO? Quais penalidades você pode receber por não cumpri-las?
-
Você precisa manter a integridade dos dados para atender aos requisitos normativos ou de conformidade?
A planilha a seguir pode ajudar na avaliação de cada workload. É possível modificá-la para atender às suas necessidades específicas, como incluir perguntas adicionais.

Planilha
Etapas de implementação
-
Identifique as partes interessadas empresariais e as equipes técnicas responsáveis por cada workload e interaja com elas.
-
Crie categorias ou níveis de criticidade para o impacto da workload na organização. As categorias de exemplo incluem: crítica, alta, média e baixa. Para cada categoria, escolha um RTO e um RPO que reflitam seus objetivos e requisitos de negócios.
-
Atribua uma das categorias de impacto que você criou na etapa anterior a cada workload. Para decidir como é o mapeamento entre uma workload e uma categoria, considere a importância dela para os negócios e o impacto da interrupção ou perda de dados e use as perguntas acima como guia. Isso resulta em um RTO e um RPO para cada workload.
-
Considere o RTO e o RPO para cada workload determinada na etapa anterior. Envolva as equipes técnicas e comerciais da workload para determinar se os objetivos devem ser ajustados. Por exemplo, as partes interessadas da empresa podem determinar que metas mais rigorosas são necessárias. Como alternativa, as equipes técnicas poderiam determinar que as metas deveriam ser modificadas para torná-las alcançáveis com os recursos disponíveis e as restrições tecnológicas.
Recursos
Práticas recomendadas relacionadas:
Documentos relacionados:
-
Blog de arquitetura da AWS: série de recuperação de desastres
-
Recuperação de desastres de workloads na AWS: recuperação na nuvem (whitepaper da AWS)
-
Parceiro da APN: parceiros que podem ajudar com a recuperação de desastres
-
AWS Marketplace: produtos que podem ser usados para recuperação de desastres
Vídeos relacionados: