排查虚拟机问题 - AWS Backup

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

排查虚拟机问题

增量备份/CBT 问题和消息

失败消息: "The VMware Change Block Tracking (CBT) data was invalid during this backup, but the incremental backup was successfully completed with our proprietary change detection mechanism."

如果此消息仍然存在,请按照 VMware 的指示重置 CBT

消息说明 CBT 未开启或不可用:“VMware 更改块跟踪 (CBT) 不适用于此虚拟机,但是已使用我们专有的更改机制成功完成增量备份。”

检查以确保 CBT 已开启。要验证虚拟磁盘是否已启用 CBT,请执行以下操作:

  1. 打开 vSphere Client,然后选择已关闭的虚拟机。

  2. 右键单击虚拟机并导航至编辑设置 > 选项 > 高级/常规 > 配置参数

  3. 选项 ctkEnabled 需要等于 True

如果已开启,请确保您使用的是 up-to-date VMware 功能。主机必须是 ESXi 4.0 或更高版本,并且具有待跟踪磁盘的虚拟机必须是硬件版本 7 或更高版本。

如果 CBT 已开启(启用)并且软件和硬件为最新,请关闭虚拟机,然后再次将其打开。确保 CBT 已开启。然后,再次执行备份。

VMware 备份失

当 VMware 备份失败时,可能与以下情况之一有关:

失败消息:"Failed to process backup data. Aborted backup job.""Error opening disk on the virtual machine"

可能的原因:出现此错误的原因可能是配置问题;或者,不支持 VMware 版本或磁盘。

补救措施 1:确保您的基础设施配置为使用网关,并确保所有必需的端口都已打开。

  1. 访问备份网关控制台。请注意,这与 AWS Backup 控制台不同。

  2. Backup 网关配置页面上,输入选项 3 以测试网络连接。

  3. 如果网络测试成功,请输入 X

  4. 返回 Backup 网关配置页面。

  5. 输入 7 访问命令提示符。

  6. 运行以下命令以验证网络连接:

    ncport -d ESXi Host-p 902

    ncport -d ESXi Host-p 443

补救措施 2:使用支持的虚拟机版本。

补救措施 3:如果网关设备配置的 DNS 服务器不正确,则备份将失败。要验证 DNS 配置,请完成以下步骤:

  1. 访问备份网关控制台

  2. Backup 网关配置页面上,输入选项 2 以导航到网络配置。

  3. 网络配置中,输入 7 以查看 DNS 配置。

  4. 查看 DNS 服务器 IP 地址。如果 DNS 服务器 IP 地址不正确,则会出现返回 “网络配置” 的提示。

  5. 网络配置中,输入 6 以编辑 DNS 配置。

  6. 输入正确的 DNS 服务器 IP 地址。然后,输入 X 以完成网络配置。

要获取有关您的虚拟机管理程序的更多信息,例如错误、网络配置和连接,请参阅将虚拟机管理程序配置编辑管理程序配置为与 Amazon Logs 集成。 CloudWatch

由于网络连接问题导致的 Backup 失败

失败消息:"Failed to upload backup during data ingestion. Aborted backup job.""Cloud network request timed out during data ingestion"

可能的原因:如果网络连接不足以处理数据上传,则可能会出现此错误。如果网络带宽较低,则虚拟机和虚拟机之间的链路 AWS Backup 可能会变得拥塞并导致备份失败。

所需的网络带宽取决于多个因素,包括虚拟机的大小、为每个虚拟机备份生成的增量数据、备份窗口和还原要求。

补救措施:最佳实践和建议包括为连接到的本地虚拟机设置至少为 1000 Mbps 的上传带宽。 AWS Backup确认带宽后,重试备份作业。

备份作业已中止

失败消息: "Failed to create backup during snapshot creation. Aborted backup job."

可能的原因:网关设备所在的 VMware 主机可能存在问题。

补救措施:检查您的 VMware 主机的配置并查看是否存在问题。有关更多信息,请参阅 编辑管理程序配置

没有可用的网关

失败消息: "No gateways available to work on job."

可能的原因:所有连接的网关都忙于其他作业。每个网关最多只能有四个并发作业(备份或恢复)。

有关补救措施,请参阅下一节,了解有关增加网关数量的步骤以及延长备份计划窗口时间的步骤。

VMware 备份任务失败

失败消息:"Abort signal detected"

可能的原因:

  • 网络带宽过低:网络带宽不足会阻碍在完成窗口内完成备份。当备份作业需要的带宽超过可用带宽时,可能会导致失败并触发 “检测到中止信号” 错误。

  • Backup Gateways 数量不足:如果备份网关的数量不足以处理所有已配置虚拟机的备份轮换,则备份任务可能会失败。当备份计划完成备份的时间过短或备份网关的数量不足时,就会发生这种情况。

  • Backup Plan 完成窗口太小。

补救措施:

增加带宽:考虑增加与本地环境 AWS 之间的网络容量。此步骤将为备份过程提供更多带宽,使数据能够在不触发错误的情况下顺利传输。建议您至少有 100-Mbps 的带宽 AWS 来备份本地 VMware 虚拟机。 AWS Backup

如果为备份网关配置了带宽速率限制,则可能会限制数据流并导致备份失败。提高带宽速率限制以确保足够的数据传输容量可能有助于减少故障。此调整可以减轻 “检测到中止信号” 错误的发生。有关更多信息,请参阅 Backup 网关带宽限制

增加 Backup 网关的数量:一个备份网关一次最多可以处理 4 个备份和还原作业。其他任务将排队等候网关释放,直到备份启动窗口过去。如果备份窗口已过并且排队的作业尚未启动,则这些备份作业将失败,并显示 “检测到中止信号”。您可以增加备份网关的数量以减少失败的作业数量。有关更多详细信息,请参阅使用网关

延长备份计划窗口时间:您可以在备份计划的备份窗口期限内延长完成时间。有关更多详细信息,请参阅备份计划选项和配置

要获得解决这些问题的帮助,请参阅AWS 知识中心