排查虚拟机问题
增量备份/CBT 问题和消息
失败消息: "The VMware Change Block Tracking (CBT)
data was invalid during this backup, but the incremental backup was successfully completed
with our proprietary change detection mechanism."
如果此消息仍然存在,请按照 VMware 的指示重置 CBT
消息说明 CBT 未开启或不可用:“VMware 更改块跟踪 (CBT) 不适用于此虚拟机,但是已使用我们专有的更改机制成功完成增量备份。”
检查以确保 CBT 已开启。要验证虚拟磁盘是否已启用 CBT,请执行以下操作:
打开 vSphere Client,然后选择已关闭的虚拟机。
右键单击虚拟机并导航至编辑设置 > 选项 > 高级/常规 > 配置参数。
选项
ctkEnabled
需要等于True
。
如果已开启,请确保使用的是最新的 VMware 功能。主机必须是 ESXi 4.0 或更高版本,并且具有待跟踪磁盘的虚拟机必须是硬件版本 7 或更高版本。
如果 CBT 已开启(启用)并且软件和硬件为最新,请关闭虚拟机,然后再次将其打开。确保 CBT 已开启。然后,再次执行备份。
VMware 备份失败
当 VMware 备份失败时,可能与以下情况之一有关:
失败消息:"Failed to process backup data. Aborted
backup job."
或 "Error opening disk on the virtual
machine"
。
可能的原因:出现此错误的原因可能是配置问题;或者 VMware 版本或磁盘不受支持。
补救措施 1:确保您的基础设施配置为使用网关,并确保所有必需的端口都已打开。
-
访问 Backup Gateway 控制台。请注意,这与 AWS Backup 控制台不同。
-
在 Backup Gateway 配置页面上,输入选项 3 以测试网络连接。
-
如果网络测试成功,请输入 X。
-
返回到 Backup Gateway 配置页面。
-
输入 7 以访问命令提示符。
-
运行以下命令以验证网络连接:
ncport -d
ESXi Host
-p 902ncport -d
ESXi Host
-p 443
补救措施 2:使用 支持的虚拟机 版本。
补救措施 3:如果网关设备配置的 DNS 服务器不正确,则备份将失败。要验证 DNS 配置,请完成以下步骤:
-
在 Backup Gateway 配置页面上,输入选项 2 以导航到网络配置。
-
在网络配置中,输入 7 以查看 DNS 配置。
-
查看 DNS 服务器 IP 地址。如果 DNS 服务器 IP 地址不正确,系统会提示您返回到网络配置。
-
在网络配置中,输入 6 以编辑 DNS 配置。
-
输入正确的 DNS 服务器 IP 地址。然后,输入 X 以完成网络配置。
要获取有关您的虚拟机监控程序的更多信息,例如错误、网络配置和连接,请参阅编辑管理程序配置以将虚拟机监控程序配置为与 Amazon CloudWatch Logs 集成。
由于网络连接问题导致的备份失败
失败消息:"Failed to upload backup during data
ingestion. Aborted backup job."
或 "Cloud network request timed out
during data ingestion"
。
可能的原因:如果网络连接不足以处理数据上传,则可能会出现此错误。如果网络带宽较低,则虚拟机和 AWS Backup 之间的链路可能会变得拥塞而导致备份失败。
所需的网络带宽取决于多个因素,包括虚拟机的大小、为每个虚拟机备份生成的增量数据、备份时段和还原要求。
补救措施:最佳实践和建议包括为连接到 AWS Backup 的本地虚拟机设置至少 1000 Mbps 的上传带宽。确认带宽后,重试备份作业。
备份作业已中止
失败消息: "Failed to create backup during snapshot creation. Aborted backup
job."
可能的原因:网关设备所在的 VMware 主机可能存在问题。
补救措施:检查 VMware 主机的配置,查看其是否存在问题。有关更多信息,请参阅 编辑管理程序配置。
没有可用的网关
失败消息: "No gateways available to work on job."
可能的原因:所有连接的网关都忙于其他作业。每个网关最多只能有四个并发作业(备份或还原)。
如需了解补救措施,请参阅下一节有关增加网关数量的步骤以及延长备份计划时段时间的步骤。
VMware 备份作业失败
失败消息:"Abort signal detected"
可能的原因:
-
网络带宽过低:网络带宽不足会阻碍在完成时段内完成备份。当备份作业需要的带宽超过可用带宽时,可能会导致失败并触发“检测到中止信号”错误。
-
备份网关数量不足:如果备份网关的数量不足以处理所有已配置虚拟机的备份轮换,则备份作业可能会失败。当备份计划用于完成备份的时段过短或备份网关数量不足时,就会发生这种情况。
-
备份计划完成时段过短。
补救措施:
增加带宽:考虑增加 AWS 与本地环境之间的网络容量。此步骤将为备份过程提供更多带宽,使数据能够顺利传输而不触发错误。建议带宽至少为 100 Mbps,以便 AWS 使用 AWS Backup 备份本地 VMware 虚拟机。
如果为备份网关配置了带宽速率限制,则可能会限制数据流并导致备份失败。提高带宽速率限制以确保足够的数据传输容量可能有助于减少失败次数。此调整可以抑制“检测到中止信号”错误的发生。有关更多信息,请参阅 Backup Gateway 带宽限制。
增加备份网关的数量:一个备份网关一次最多可以处理 4 个备份和还原作业。其他作业将排队等候网关释放,直到备份启动时段结束。如果备份时段已过,而排队的作业尚未启动,这些备份作业将失败,并显示“检测到中止信号”。您可以增加备份网关的数量,以减少失败的作业数量。有关更多详细信息,请参阅使用网关。
延长备份计划时段时间:您可以增加备份计划中备份时段的完成期限。有关更多详细信息,请参阅备份计划选项和配置。
要获得解决这些问题的帮助,请参阅 AWS 知识中心