REL09-BP04 定期执行数据恢复以验证备份完整性和流程 - AWS Well-Architected Framework

REL09-BP04 定期执行数据恢复以验证备份完整性和流程

通过执行恢复测试,验证您的备份流程实施是否满足恢复时间目标(RTO)和恢复点目标(RPO)要求。

期望结果:使用明确定义的机制定期从备份恢复数据,确认可以按照为工作负载确定的恢复时间目标(RTO)来恢复数据。验证从备份进行还原可以得到包含原始数据的资源,而不会造成数据损坏或无法访问数据,并且数据丢失在恢复点目标(RPO)之内。

常见反模式:

  • 还原备份,但未查询或检索任何数据以确认还原操作可用。

  • 假定备份存在。

  • 假定系统的备份完全正常运行,并且可从中恢复数据。

  • 假定从备份还原或恢复数据的时间满足工作负载的 RTO。

  • 假定备份中包含的数据符合工作负载的 RPO

  • 需要时进行还原,没有使用运行手册或者没有按照确定的自动程序执行。

建立此最佳实践的好处:测试备份的恢复过程可以确认在需要时能够将数据还原,不必担心数据可能丢失或损坏,可以按照工作负载要求的 RTO 还原和恢复,并且任何数据丢失都符合工作负载的 RPO。

在未建立这种最佳实践的情况下暴露的风险等级:中等

实施指导

测试备份和还原功能可树立信心,确信能够在出现中断时执行这些操作。定期将备份还原到新的位置,并运行测试以验证数据的完整性。应该执行一些常见的测试,以核实所有数据是否均可用、未损坏、可访问且任何数据丢失都符合工作负载的 RPO。此类测试还可以帮助确定恢复机制是否足够快以满足工作负载的 RTO 要求。

使用 AWS,您可以构建一个测试环境,还原您的备份以评估 RTO 和 RPO 功能,并且对数据的内容和完整性执行测试。

此外,Amazon RDS 和 Amazon DynamoDB 还允许时间点恢复(PITR)。您可以使用持续备份将您的数据集还原到其在指定日期与时间所处的状态。

数据是否可用、没有损坏、是否可以访问并且任意数据丢失都符合工作负载的 RPO。此类测试还可以帮助确定恢复机制是否足够快以满足工作负载的 RTO 要求。

AWS Elastic Disaster Recovery 提供 Amazon EBS 卷的持续时间点恢复快照。复制源服务器时,根据配置的策略记录一段时间内的时间点状态。Elastic Disaster Recovery 可以启动实例用于测试和演练,而不重定向流量,从而帮助您验证这些快照的完整性。

实施步骤

  1. 确定当前备份的数据来源以及存储这些备份的位置。有关实施指导,请参阅 REL09-BP01 识别和备份需要备份的所有数据,或从源复制数据.

  2. 为每个数据来源建立数据验证标准。不同类型的数据具有不同的属性,这可能需要不同的验证机制。在您确信将此数据用于生产之前,请考虑可以如何验证此数据。一些验证数据的常见方法包括使用数据和备份属性,例如数据类型、格式、校验和、大小,或者将这些属性与自定义的验证逻辑结合使用。例如,可以将所恢复资源的校验和值,与创建备份时数据来源的校验和值进行比较。

  3. 建立 RTO 和 RPO,以根据数据重要性来还原数据。有关实施指导,请参阅 REL13-BP01 定义停机和数据丢失的恢复目标.

  4. 评估恢复能力。检查备份和还原策略,了解它是否可以满足您的 RTO 和 RPO,并根据需要调整策略。使用 AWS 韧性监测中心,您可以对工作负载运行评估。该评估根据弹性策略评估您的应用程序配置,并报告是否能够满足 RTO 和 RPO 目标。

  5. 使用当前为生产环境中数据还原所确立的流程执行测试还原。这些流程依赖于对原始数据来源进行备份的方法,备份本身的格式和存储位置,或者数据是否从其他来源复制。例如,如果您使用 AWS Backup 等托管服务,则此过程可能就是简单地将备份还原到新的资源。如果您使用 AWS Elastic Disaster Recovery,则可以启动恢复演练

  6. 根据您之前为数据验证确立的标准,从还原后的资源验证数据恢复。还原和恢复的数据是否包含备份时的最新记录或项目? 此数据是否在工作负载的 RPO 之内?

  7. 测量还原和恢复所需的时间,并与确立的 RTO 进行比较。此流程是否符合工作负载的 RTO? 例如,比较还原过程开始时的时间戳以及恢复验证完成时的时间戳,以计算此过程的用时。所有 AWS API 调用均有时间戳,此信息在 AWS CloudTrail 中提供。虽然此信息可以提供还原过程何时开始的详细信息,但验证完成时的结束时间戳应该由您的验证逻辑来记录。如果使用自动化过程,则 Amazon DynamoDB 等服务可用于存储此信息。此外,许多 AWS 服务提供了事件历史记录,其中可提供发生特定操作时的时间戳信息。在 AWS Backup 中,备份和还原操作称为作业,这些作业在其元数据中包含时间戳信息,可用于测量还原和恢复所需的时间。

  8. 如果数据验证失败,或者如果还原和恢复所需的时间超过了为工作负载设定的 RTO,则通知利益攸关方。在实施自动化以完成此操作时(例如在本实验中),可以使用 Amazon Simple Notification Service(Amazon SNS)等服务将推送通知(例如电子邮件或短信)发送给利益攸关方。这些消息还可以发布到消息传递应用程序,例如 Amazon Chime、Slack 或 Microsoft Teams,或用于使用 AWS Systems Manager OpsCenter 来创建 OpsItems 等任务

  9. 自动执行此流程以便定期运行。例如,AWS Lambda 等服务或 AWS Step Functions 中的状态机可用于自动完成还原和恢复流程,Amazon EventBridge 可用于定期触发此自动工作流,如以下架构图中所示。了解如何使用 AWS Backup 自动完成数据恢复验证。此外,这个 Well-Architected 实验室提供动手实践体验,可用于练习针对此处的多个步骤实现自动化的方法。

图中显示自动化的备份和还原流程

图 9.自动化的备份和还原流程

实施计划的工作量级别:中到高,具体取决于验证条件的复杂性。

资源

相关文档:

相关示例: