在 IBM Db2 on AWS 上为 SAP 设置灾难恢复

由 Ambarish Satarkar (AWS) 和 Debasis Sahoo (AWS) 编写

摘要

此模式概述了使用 IBM Db2 作为数据库平台并在 Amazon Web Services (AWS) 云上运行的 SAP 工作负载设置灾难恢复 (DR) 系统的步骤。目标是提供一种低成本解决方案，以在发生中断时提供业务连续性。

该图案使用指示灯方法。通过在 AWS 上实施指示灯灾难恢复，您可以减少停机时间并保持业务连续性。指示灯方法侧重于在 AWS 中设置最小的灾难恢复环境，包括 SAP 系统和与生产环境同步的备用 Db2 数据库。

该解决方案具有可扩展性。您可以根据需要将其扩展至全面的灾难恢复环境。

先决条件和限制

先决条件

在亚马逊弹性计算云 (Amazon EC2) 实例上运行的 SAP 实例
IBM Db2 数据库
SAP Product Availability Matrix (PAM) 支持的操作系统
生产数据库主机和备用数据库主机的物理数据库主机名不同
AWS 区域中的 Amazon Simple Storage Service (Amazon S3) 存储桶，且已启用跨区域复制 (CRR)

产品版本

IBM Db2 数据库 11.5.7 或更高版本

架构

目标技术堆栈

Amazon EC2
Amazon Simple Storage Service（Amazon S3）
Amazon 虚拟私有云（VPC 对等连接）
Amazon Route 53
IBM Db2 高可用性灾难恢复 (HADR)

目标架构

该架构以 Db2 作为数据库平台，为 SAP 工作负载实现了灾难恢复解决方案。生产数据库部署在 AWS 区域 1 中，备用数据库部署在第二个区域。备用数据库称为灾难恢复系统。Db2 数据库支持多个备用数据库（最多三个）。它使用 Db2 HADR 设置灾难恢复数据库并在生产数据库和备用数据库之间自动进行日志传送。

如果发生灾难导致区域 1 不可用，DR 区域中的备用数据库将接管生产数据库角色。SAP 应用程序服务器可以提前构建，也可以使用 AWS Elastic Disaster Recovery 或亚马逊机器映像（AMI）满足恢复时间目标（RTO）要求。此示例使用 AMI。

Db2 HADR 实现生产备用设置，其中生产充当主服务器，所有用户都连接到它。所有事务都写入日志文件，并使用 TCP/IP 将日志文件传输到备用服务器。备用服务器通过前滚传输的日志记录来更新其本地数据库，这有助于确保其与生产服务器保持同步。

使用 VPC 对等互连，以便生产区域和灾难恢复区域中的实例可以相互通信。Amazon Route 53 将最终用户路由至互联网应用程序。

在区域 1 为应用程序创建 AMI，复制 AMI 至区域 2。发生灾难时，使用 AMI 启动区域 2 服务器。
在生产数据库 (在区域 1 )和备用数据库 (在区域 2) 之间设置 Db2 HADR 复制。
发生灾难时，请更改 EC2 实例类型以匹配生产实例。
在区域 1 中，将 LOGARCHMETH1 设置为 db2remote: S3 path。
在区域 2 中，将 LOGARCHMETH1 设置为 db2remote: S3 path。
跨区域复制在S3存储桶之间执行。

工具

Amazon Web Services

亚马逊弹性计算云 (Amazon EC2) 在 AWS 云中提供可扩展的计算容量。您可以根据需要启动任意数量的虚拟服务器，并快速扩展或缩减它们。
Amazon Route 53 是一种可用性高、可扩展性强的 DNS Web 服务。
Amazon Simple Storage Service (Amazon S3) 是一项基于云的对象存储服务，可帮助您存储、保护和检索任意数量的数据。
Amazon Virtual Private Cloud (Amazon VPC) 可帮助您将 AWS 资源启动到您定义的虚拟网络中。此虚拟网络类似于您在自己的数据中心内运行的传统网络，具有使用 AWS 可扩展基础设施的优势。此模式使用 VPC 对等互连。

最佳实践

网络在决定 HADR 复制模式方面起着关键作用。对于跨 AWS 区域的灾难恢复，我们建议您使用 Db2 HADR ASYNC 或 SUPERASYNC 模式。
有关 Db2 HADR 复制模式的更多信息，请参阅 IBM 文档。
您可以使用 AWS 管理控制台或 AWS 命令行界面（AWS CLI）针对现有 SAP System 创建新的 AMI。然后，您可以使用 AMI 恢复现有 SAP 系统或者创建克隆。
AWS Systems Manager Automation 可以帮助完成 EC2 实例和其他 AWS 资源的常见维护和部署任务。
AWS 提供多种本机服务，监控和管理 AWS 上的基础设施和应用程序。诸如 Amazon CloudWatch 和 AWS 之类的服务 CloudTrail 可以分别用于监控您的底层基础设施和 API 操作。有关更多详细信息，请参阅 SAP on AWS – IBM Db2 HADR，带 Pacemaker。

操作说明

Task	描述	所需技能
检查系统和日志。	确认 Db2 系统上的生产 SAP 已设置。确认日志备份已打开，并配置为将日志保存在 S3 存储桶中。这可通过 Db2 参数 `LOGARCHMETH1` 进行检查。创建附加应用服务器 AMI。	AWS 管理员、SAP Basis 管理员

Task	描述	所需技能
创建 SAP 和数据库服务器。	要为灾难恢复区域部署基础设施，请使用 AWS CloudFormation 脚本或生产实例的 AMI。作为指示灯方法的一部分，您可以使用与生产 EC2 实例同一个系列中的较小实例。例如，如果您的生产实例类型为 `r6i.12xlarge`，则可以将 `r6i.xlarge` 实例类型用于灾难恢复构建。但是，请确保灾难恢复实例上分配相同的存储容量，以恢复生产数据库备份。为 `/sapmnt/<SID>/` 创建 Amazon Elastic File System (Amazon EFS) 挂载点，并确保将其设置为从主系统复制。从生产系统进行完整数据库备份（在线或离线）。您将使用此备份构建灾难恢复数据库。在灾难恢复系统中，使用 SAP 软件配置管理器 (SWPM) 系统复制方法和使用系统副本来backup/restore for HA/DR构建 DR SAP 系统。当 SWPM 要求时，使用从生产中获取的备份恢复灾难恢复中的数据库。DR 数据库将处于前滚挂起状态。恢复完整备份后，默认设置前滚挂起状态。前滚挂起状态指示数据库正在恢复，并且可能需要应用一些更改。有关更多信息，请参阅 IBM 文档。	SAP Basis 管理员
检查配置。	要为 HADR 设置日志归档，生产数据库和灾难恢复数据库都必须能够从所有日志归档位置自动检索日志。验证灾难恢复数据库中的 `LOGARCHMETH1` 参数是否设置为与生产数据库中的参数相同的位置。如果因区域限制而无法访问同一位置，请确保灾难恢复系统可以自动从主系统获取日志。要启用 TCP/IP 端口以启用数据库复制，请通过添加以下两个 `/etc/services` 条目在生产和灾难恢复主机中进行修改。在代码中，`<SID>` 指的是 Db2 数据库的系统 ID (SID)(例如 `PR1`)。 `<SID>_HADR_1 55001/tcp # DB2 HADR Port1 <SID>_HADR_2 55002/tcp # DB2 HADR Port2` 确认两个端口都允许主端口和备用端口间的入站和出站流量。检查 `/etc/hosts` 生产主机和灾难恢复主机，确认生产主机和备用主机的主机名都指向正确的 IP 地址。	AWS 管理员、SAP Basis 管理员
设置从生产数据库到灾难恢复数据库的复制（使用异步模式）。	在生产数据库中，执行以下命令更新参数。 db2 UPDATE DB CFG FOR <SID> USING HADR_LOCAL_HOST HOST1 db2 UPDATE DB CFG FOR <SID> USING HADR_LOCAL_SVC <SID>_HADR_1 db2 UPDATE DB CFG FOR <SID> USING HADR_REMOTE_HOST HOST2 db2 UPDATE DB CFG FOR <SID> USING HADR_REMOTE_SVC <SID>_HADR_2 db2 UPDATE DB CFG FOR <SID> USING HADR_REMOTE_INST db2<sid> db2 UPDATE DB CFG FOR <SID> USING HADR_TIMEOUT 120 db2 UPDATE DB CFG FOR <SID> USING HADR_SYNCMODE ASYNC db2 UPDATE DB CFG FOR <SID> USING HADR_SPOOL_LIMIT 1000 db2 UPDATE DB CFG FOR <SID> USING HADR_PEER_WINDOW 240 db2 UPDATE DB CFG FOR <SID> USING indexrec RESTART logindexbuild ON 在灾难恢复数据库，中执行以下命令更新参数。 db2 UPDATE DB CFG FOR <SID> USING HADR_LOCAL_HOST HOST2 db2 UPDATE DB CFG FOR <SID> USING HADR_LOCAL_SVC <SID>_HADR_2 db2 UPDATE DB CFG FOR <SID> USING HADR_REMOTE_HOST HOST1 db2 UPDATE DB CFG FOR <SID> USING HADR_REMOTE_SVC <SID>_HADR_1 db2 UPDATE DB CFG FOR <SID> USING HADR_REMOTE_INST db2<sid> db2 UPDATE DB CFG FOR <SID> USING HADR_TIMEOUT 120 db2 UPDATE DB CFG FOR <SID> USING HADR_SYNCMODE ASYNC db2 UPDATE DB CFG FOR <SID> USING HADR_SPOOL_LIMIT 1000 db2 UPDATE DB CFG FOR <SID> USING HADR_PEER_WINDOW 240 db2 UPDATE DB CFG FOR <SID> USING indexrec RESTART logindexbuild ON 需要这些参数向两个数据库提供 HADR 相关信息。在 Db2 数据库，根据先前设置的每个参数的值激活 HADR。有关这些参数的更多信息，请参阅 IBM 文档。首先使用以下命令，在新创建的备用数据库上启动 HADR。 `db2 deactivate db <SID> db2 start hadr on db <SID> as standby` 使用以下命令，对生产数据库启动 HADR。 `db2 deactivate db <SID> db2 start hadr on db <SID> as primary` 检查生产数据库和备用 Db2 数据库是否同步，以及日志传送是否正在进行中。要监控 HADR 复制状态，请使用以下 `db2pd` 命令。 `db2pd -d <SID> -hadr` 有关监控 HADR 的更多信息，请参阅 IBM 文档。	SAP Basis 管理员

Task	描述	所需技能
规划灾难恢复测试生产业务停机时间。	确保在生产环境中计划所需业务停机时间，以测试灾难恢复失效转移场景。	SAP Basis 管理员
创建测试用户。	创建可在灾难恢复主机中进行验证的测试用户（或任何测试更改），以确认灾难恢复失效转移后的日志复制。	SAP Basis 管理员
在控制台上，停止生产 EC2 实例。	在此步骤中启动非正常关闭，以模拟灾难场景。	AWS 系统管理员
扩展 DR EC2 实例以满足要求。	在 EC2 控制台上，更改灾难恢复区域中的实例类型。停止实例：如果实例正在运行，您必须先停止，然后才能更改其实例类型。在 EC2 控制台上，选择实例，然后选择停止。修改实例类型：在 EC2 控制台上，选择实例，然后选择操作、实例设置、更改实例类型。选择与主实例匹配的实例类型，然后选择应用。启动实例：实例类型更改完成后，从 EC2 控制台启动实例，方法是选择实例并选择启动。要启动 Db2 数据库，请使用以下命令： `db2start db2 start HADR on db <SID> as standby`	SAP Basis 管理员
发起接管。	在灾难恢复系统 (`host2`) 中，启动接管进程并启动灾难恢复数据库作为主数据库。 `db2 takeover hadr on database <SID> by force` 或者，您可设置以下参数，根据实例类型自动调整数据库内存分配。该 `INSTANCE_MEMORY` 值可以根据分配给 Db2 数据库的专用内存部分来决定。 `db2 update db cfg for <SID> using INSTANCE_MEMORY <FIXED VALUE> IMMEDIATE; db2 get db cfg for <SID> \| grep -i DATABASE_MEMORY AUTOMATIC IMMEDIATE; db2 update db cfg for <SID> using self_tuning_mem ON IMMEDIATE;` 请使用以下命令验证更改。 `db2 get db cfg for <SID> \| grep -i MEMORY db2 get db cfg for <SID> \| grep -i self_tuning_mem`	SAP Basis 管理员
在灾难恢复区域中启动适用于 SAP 的应用程序服务器。	使用您在生产系统中创建的 AMI，在灾难恢复区域中启动新的附加应用程序服务器。	SAP Basis 管理员
在启动 SAP 应用程序前执行验证。	验证 `/etc/hosts` 和 `/etc/fstab` 条目。在灾难恢复系统上安装 `/sapmnt/<SID>/`。验证灾难恢复文件系统 `/sapmnt/<SID>/` 是否与生产 `/sapmnt/<SID>/` 文件系统同步。登录 `<sid>adm` 用户，运行 `R3trans -d` 并验证 `trans.log` 文件中的输出。`trans.log` 文件是在运行 `R3trans -d` 命令的同一位置生成的。	AWS 管理员、SAP Basis 管理员
在灾难恢复系统启动 SAP 应用程序。	使用 `<sid>adm` 用户在灾难恢复系统上启动 SAP 应用程序。使用以下代码，代码 `XX` 代表您的 SAP ABAP SAP 中央服务 (ASCS) 服务器的实例号，`YY` 代表您的 SAP 应用程序服务器的实例号。 `sapconrol -nr XX -function StartService <SID> sapconrol -nr XX -function StartSystem sapconrol -nr YY -function StartService <SID> sapconrol -nr YY -function StartSystem`	SAP Basis 管理员
执行 SAP 验证。	这是作为灾难恢复测试执行的，以提供证据或检查灾难恢复区域的数据复制是否成功。	测试工程师

Task	描述	所需技能
启动生产 SAP 和数据库服务器。	在控制台上，启动在生产系统中托管 SAP 和数据库的 EC2 实例。	SAP Basis 管理员
启动生产数据库并设置 HADR。	登录至生产系统 (`host1`)，使用以下命令验证数据库是否处于恢复模式。 `db2start db2 start HADR on db P3V as standby db2 connect to <SID>` 验证 HADR 状态是否为 `connected`。复制状态应为 `peer`。 `db2pd -d <SID> -hadr` 如果数据库并非不一致且未处于 `connected` 和 `peer` 状态，则可能需要进行备份和恢复，以使数据库 (开启 `host1`) 与当前活动的数据库 (在灾难恢复区域 `host2` 中) 同步。在这种情况下，请将数据库备份从 `host2` 灾难恢复区域的数据库还原到 `host1` 生产区域的数据库。	SAP Basis 管理员
将数据库故障恢复至生产区域。	在正常 business-as-usual情况下，此步骤是在计划停机时间内执行的。在灾难恢复系统上运行的应用程序将停止，数据库将故障恢复到生产区域 (区域 1)，以便从生产区域恢复操作。登录灾难恢复区域中的 SAP 应用程序服务器，然后停止 SAP 应用程序。 `/sapmnt/<SID>` 从灾难恢复系统中卸载，确保将更改反向复制到 `/sapmnt/<SID>` 生产系统。登录生产区域中的数据库服务器 (`host1`)，然后执行接管。 `db2 takeover hadr on database <SID>` 检查 HADR 状态：`HADR_ROLE` 应为 `host1` 的 `PRIMARY` 和 `host2` 的 `StandBy`。 `db2pd -d <SID> -hadr`	SAP Basis 管理员
在启动 SAP 应用程序前执行验证。	验证 `/etc/hosts` 和 `/etc/fstab` 条目。在生产系统上安装 `/sapmnt/<SID>/`。确保它与灾难恢复系统 `/sapmnt/<SID>/` 同步。登录 `<sid>adm` 用户，运行 `R3trans -d` 并验证 `trans.log` 文件中的输出。`trans.log` 文件是在运行 `R3trans -d` 命令的同一位置生成的。	AWS 管理员、SAP Basis 管理员
启动 SAP 应用程序。	使用 `<sid>adm` 用户在生产系统上启动 SAP 应用程序。使用以下代码，代码 `XX` 代表您的 SAP ASCS 服务器的实例号，`YY` 代表您的 SAP 应用程序服务器的实例号。 `sapconrol -nr XX -function StartService <SID> sapconrol -nr XX -function StartSystem sapconrol -nr YY -function StartService <SID> sapconrol -nr YY -function StartSystem` 要确认应用程序服务器是否可用，请登录 SAP 并使用 SICK 和 SM51 事务进行检查。	SAP Basis 管理员

故障排除

事务	解决方案
用于解决 HADR 相关问题的密钥日志文件和命令	`db2 get db cfg \| grep -i hadr` `db2pd -d sid -hadr` `Db2diag.log`（此文件通常位于 `db2dump` 目录内，`db2dump` 路径由参数 `DIAGPATH` 定义。）
SAP 注意事项，用于对 Db2 UDB 上的 HADR 问题进行疑难解答	请参阅 SAP Note 1154013- DB6：HADR 环境中的数据库问题。（您需要 SAP 门户凭证才能访问此笔记。）

其他信息

使用这种模式，您可为在 Db2 数据库上运行的 SAP 系统设置灾难恢复系统。在灾难情况下，业务应能够继续执行您定义的恢复时间目标（RTO）和恢复点目标（RPO）要求：

RTO 是指服务中断和服务恢复之间可接受的最大延迟。这决定了当服务不可用时，什么时间段被视为可接受的时间窗口。
RPO 是指自上一个数据恢复点以来可接受的最长时间。这决定了从上一个恢复点到服务中断之间可接受的数据丢失情况。

有关 HADR 的 FAQs 相关信息，请参阅 SAP 注释 #1612105- DB6：Db2 高可用性灾难恢复 (HADR) 常见问题解答。(您需要 SAP 门户凭证才能访问此笔记。)

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

使用本地 SMTP 服务器发送 RDS for SQL Server 通知

使用 Terraform 为数据库迁移设置 CI/CD 管道