测试灾难恢复 - AWS 上的工作负载灾难恢复:云中的恢复

测试灾难恢复

应测试灾难恢复实施以验证实施效果,并定期测试到工作负载灾难恢复区域的故障转移以确保满足 RTO 和 RPO。

要避免的模式是开发很少执行的恢复路径。例如,您可能有一个用于只读查询的辅助数据存储。当您写入某个数据存储,却发现主存储故障时,您可能希望将故障转移到辅助数据存储。如果您不经常测试此故障转移,可能会发现您关于辅助数据存储容量的假设是错误的。辅助数据存储容量在您上次测试时可能是足够的,但可能无法再容纳这次情况下的负载,或者辅助区域中的服务配额可能不够。

我们的经验表明,唯一有效的错误恢复是您经常测试的路径。因此,最好只开发几条恢复路径。

您可以建立恢复模式并定期对其进行测试。如果某条恢复路径比较复杂或至关重要,您仍需定期在生产环境中模拟相应故障,以验证该恢复路径有效。

管理灾难恢复区域的配置漂移。确保灾难恢复区域的基础设施、数据和配置满足需求。例如,检查 AMI 和服务配额是否为最新。

您可以利用 AWS Config 持续监控和记录 AWS 资源配置。AWS Config 可以检测漂移并触发 AWS Systems Manager Automation 来修复漂移并发出警报。AWS CloudFormation 还可以检测您已部署的堆栈中的漂移。