排查高可用性问题 - AWS Storage Gateway

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

排查高可用性问题

如果您遇到可用性问题,则可在下面查找有关要采取的操作的信息。

运行状况通知

当您在 VMware vSphere HA 上运行网关时,所有网关都会向您配置的 Amazon CloudWatch 日志组生成以下运行状况通知。这些通知将转至名为 AvailabilityMonitor 的日志流中。

通知:重启

在重新启动网关 VM 时,您会收到重启通知。您可以使用 VM 管理程序管理控制台或 Storage Gateway 控制台重新启动网关 VM。您也可以在网关维护周期内使用网关软件来重新启动。

措施

如果重启时间在网关的已配置维护开始时间的 10 分钟内,则此情况可能是正常的,并不指示任何问题。如果重启发生在维护时段之外,请检查是否已手动重新启动网关。

通知: HardReboot

当网关 VM 意外重启时,您会收到 HardReboot 通知。此类重启可能是因断电、硬件故障或其他事件导致的。对于 VMware 网关,通过 vSphere High Availability 应用程序监控进行重置会启动此事件。

措施

当网关在此类环境中运行时,请检查是否存在 HealthCheckFailure 通知并查看 VM 的 VMware 事件日志。

通知: HealthCheckFailure

对于 VMware vSphere HA 上的网关,当运行状况检查失败并请求重新启动 VM 时,您会收到 HealthCheckFailure 通知。此事件也会在测试期间发生来监控可用性(由 AvailabilityMonitorTest 通知指示)。在此情况下,应会有 HealthCheckFailure 通知。

注意

此通知仅适用于 VMware 网关。

措施

如果此事件重复发生,但没有 AvailabilityMonitorTest 通知,请检查您的 VM 基础设施是否存在问题(存储、内存等)。如果您需要其他帮助,请联系 AWS Support。

通知: AvailabilityMonitorTest

对于 VMware vSphere HA 上的网关,当您在 VMware 中对可用性和应用程序监控系统运行测试时,您会收到 AvailabilityMonitorTest 通知。

指标

AvailabilityNotifications 指标适用于所有网关。此指标是网关生成的与可用性相关的运行状况通知数。使用 Sum 统计数据可观察网关是否遇到了任何与可用性相关的事件。有关事件的详细信息,请咨询您配置的 CloudWatch 日志组。