REL09-BP04 定期执行数据恢复以验证备份完整性和流程 - AWS Well-Architected Framework

REL09-BP04 定期执行数据恢复以验证备份完整性和流程

通过执行恢复测试,验证您的备份流程实施是否满足恢复时间目标(RTO)和恢复点目标(RPO)要求。

使用 AWS,您可以构建一个测试环境,还原您的备份以评估 RTO 和 RPO 功能,并且对数据的内容和完整性执行测试。

此外,Amazon RDS 和 Amazon DynamoDB 还允许时间点恢复 (PITR)。您可以使用持续备份将您的数据集还原到其在指定日期与时间所处的状态。

期望结果: 使用明确定义的机制定期从备份恢复数据,确保可以按照为工作负载确定的恢复时间目标(RTO,Recovery Time Objective)来恢复数据。验证从备份进行还原可以得到包含原始数据的资源,而不会造成数据损坏或无法访问数据,并且数据丢失在恢复点目标(RPO,Recovery Point Objective)之内。

常见反模式:

  • 还原备份,但未查询或检索任何数据以确保还原操作可用。

  • 假定采取了备份。

  • 假定系统的备份完全正常运行,并且可从中恢复数据。

  • 假定从备份还原或恢复数据的时间满足工作负载的 RTO。

  • 假定备份中包含的数据满足工作负载的 RPO

  • 临时进行还原,没有使用运行手册或者没有按照确定的自动程序执行。

建立此最佳实践的好处: 测试备份的恢复过程可以确保在需要时能够将数据还原,不必担心数据可能丢失或损坏,可以按照工作负载要求的 RTO 还原和恢复,并且任何数据丢失都在工作负载的 RPO 以内。

未建立此最佳实践暴露的风险等级:

实施指导

测试备份和还原功能可树立信心,确信能够在出现中断时执行这些操作。定期将备份还原到新的位置,并运行测试以验证数据的完整性。需要执行一些常见的测试,以检查

数据是否可用、没有损坏、是否可以访问并且任意数据丢失都符合工作负载的 RPO。此类测试还可以帮助确定恢复机制是否足够快以满足工作负载的 RTO 要求。

  1. 确定当前 所备份的数据来源以及存储这些备份的位置。请参阅 REL09-BP01 识别和备份需要备份的所有数据,或从源复制数据 以获取有关如何实施此项的指导。

  2. 为每个 数据来源建立数据验证标准。不同类型的数据具有不同的属性,这可能需要不同的验证机制。在将此数据用于生产之前,请考虑可以如何验证此数据。一些验证数据的常见方法包括使用数据和备份属性,例如数据类型、格式、校验和、大小,或者将这些属性与自定义的验证逻辑结合使用。例如,可以将所恢复资源的校验和值,与创建备份时数据来源的校验和值进行比较。

  3. 建立 RTO 和 RPO 以根据数据重要性来还原数据。请参阅 REL13-BP01 定义停机和数据丢失的恢复目标 以获取有关如何实施此项的指导。

  4. 评估数据恢复能力。检查备份和还原策略,了解它是否可以满足您的 RTO 和 RPO,并根据需要调整策略。使用 AWS Resilience Hub,您可以对工作负载运行评估。该评估根据弹性策略评估您的应用程序配置,并报告是否能够满足 RTO 和 RPO 目标。

  5. 使用当前 为生产环境中数据还原所确立的流程执行测试还原。这些流程依赖于对原始数据来源进行备份的方法,备份本身的格式和存储位置,或者数据是否从其他来源复制。例如,如果您使用 AWS Backup 等托管服务,则此过程可能就是简单地将备份恢复到新的资源。如果您使用 AWS 弹性灾难恢复,则可以 启动恢复演习。

  6. 根据您之前在 第 2 步中为数据验证确立的标准,从还原后的资源(来自上一步)验证数据恢复。还原和恢复的数据是否包含备份时的最新记录/项目? 此数据是否在工作负载的 RPO 之内?

  7. 测量 还原和恢复所需的时间,并与在之前在第 3 步中确立的 RTO 进行比较。此流程是否符合工作负载的 RTO? 例如,比较还原进程开始时的时间戳以及恢复验证完成时的时间戳,以计算此进程的用时。所有 AWS API 调用均有时间戳,此信息在 AWS CloudTrail中提供。虽然此信息可以提供还原进程何时开始的详细信息,但验证完成时的结束时间戳应该由您的验证逻辑来记录。如果使用自动化进程,则 Amazon DynamoDB 等服务可用于存储此信息。此外,许多 AWS 服务提供了事件历史记录,其中可提供发生特定操作时的时间戳信息。在 AWS Backup 中,备份和还原操作称为 作业,这些作业在其元数据中包含时间戳信息,可用于测量还原和恢复所需的时间。

  8. 如果 数据验证失败,或者如果还原和恢复所需的时间超过了为工作负载设定的 RTO,则通知利益相关方。在实施自动化以完成此操作时 (例如在本实验中),可以使用 Amazon Simple Notification Service(Amazon SNS)等服务将推送通知(例如电子邮件或 SMS)发送给利益相关方。 这些消息还可以发布到消息传递应用程序,例如 Amazon Chime、Slack 或 Microsoft Teams, 或者 通过使用 AWS Systems Manager OpsCenter 来创建 OpsItems 等任务

  9. 自动执行此流程以便定期运行。例如,AWS Lambda 等服务或 AWS Step Functions 中的状态机可用于自动完成还原和恢复流程,Amazon EventBridge 可用于定期触发此自动工作流,如以下架构图中所示。了解如何 使用 AWS Backup 自动完成数据恢复验证。此外, 本 Well-Architected 实验室 提供动手实践体验,可用于练习针对此处的多个步骤实现自动化的方法。

图中显示自动化的备份和还原流程

图 9.自动化的备份和还原流程

实施计划的工作量级别: 中到高,具体取决于验证条件的复杂性。

资源

相关文档:

相关示例: