监控 Storage Gateway - AWS Storage Gateway

Amazon S3 文件网关文档已移至什么是 Amazon S3 文件网关?

Amazon FSx 文件网关文档已移至什么是 Amazon FSx 文件网关?

磁带网关文档已移至什么是磁带网关?

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控 Storage Gateway

本节介绍如何使用 Amazon 监控网关,包括监控与网关关联的资源 CloudWatch。您可以监控网关的上传缓冲区和缓存存储。使用 Storage Gateway 控制台来查看网关的指标和警报。例如,您可以查看读写操作中使用的字节数、读写操作耗费的时间以及从 Amazon Web Services 云检索数据耗费的时间。借助指标,您可以跟踪网关的运行状况并设置警报,以便在一个或多个指标超出定义的阈值时通知您。

Storage Gateway 免费提供 CloudWatch 指标。记录为期两周的 Storage Gateway 指标。通过使用这些指标,您可以访问历史信息并更好地了解您的网关和卷的表现。Storage Gateway 还提供 CloudWatch 警报,但高分辨率警报除外,无需额外付费。有关 CloudWatch 定价的更多信息,请参阅 Amazon CloudWatch 定价。有关更多信息 CloudWatch,请参阅 Amazon CloudWatch 用户指南

了解网关指标

在本主题的讨论中,我们将网关指标定义为限定在网关范围内的指标,也就是说,这些指标衡量网关的某方面性能。由于一个网关包含一个或多个卷,因此网关特定的指标代表网关上的所有卷。例如,CloudBytesUploaded 指标是网关在报告期间发送给云的字节的总数。该指标包括网关上所有卷的活动。

使用网关指标数据时,应指定您希望查看其指标的网关的唯一标识。为此,您可指定 GatewayIdGatewayName 值。希望使用网关的指标时,您在指标命名空间中指定网关维度,该维度将网关专属的指标从卷专属的指标区分开。有关更多信息,请参阅使用亚马逊 CloudWatch 指标

注意

某些指标仅在最近的监控期内生成了新数据时才会返回数据点。

指标 描述
AvailabilityNotifications

网关生成的与可用性相关的运行状况通知数。

将此指标与 Sum 统计数据结合使用可观察网关是否遇到了任何与可用性相关的事件。有关事件的详细信息,请查看您配置的 CloudWatch 日志组。

单位:数字

CacheHitPercent

缓存传送的应用程序读取率。样本在报告周期结束时采用。

单位:百分比

CacheUsed

网关的缓存存储中正在使用的字节总数。样本在报告周期结束时采用。

单位:字节

IoWaitPercent

网关等待本地磁盘响应的时间百分比。

单位:百分比

MemTotalBytes

为网关 VM 预配置的 RAM 量,以字节为单位。

单位:字节

MemUsedBytes

网关 VM 当前正在使用的 RAM 量,以字节为单位。

单位:字节

QueuedWrites

等待写入的字节数 AWS,在报告周期结束时对网关中所有卷进行采样。这些字节保存在网关的工作存储空间中。

单位:字节

ReadBytes

报告周期内网关中的所有卷从场内应用程序读取的总字节数。

将此指标与 Sum 统计数据结合使用可测量吞吐量,将其与 Samples 统计数据结合使用可测量 IOPS。

单位:字节

ReadTime

报告周期内网关中所有卷从本地应用程序进行读取操作所耗费的总毫秒数。

将该指标与 Average 统计数据结合使用可测量延迟。

单位:毫秒

TimeSinceLastRecoveryPoint

自上次可用还原点以来的时间。有关更多信息,请参阅您的缓存网关无法访问,您希望恢复数据

单位:秒

TotalCacheSize

以字节为单位的缓存总大小。样本在报告周期结束时采用。

单位:字节

UploadBufferPercentUsed

网关上传缓冲区的使用率。样本在报告周期结束时采用。

单位:百分比

UploadBufferUsed

网关的上传缓冲区正在使用的总字节数。样本在报告周期结束时采用。

单位:字节

UserCpuPercent

网关处理所花 CPU 时间的百分比,在所有核心上平均计算。

单位:百分比

WorkingStorageFree

网关的工作存储空间中未使用的总空间量。样本在报告周期结束时采用。

单位:字节

WorkingStoragePercentUsed

网关上传缓冲区的使用率。样本在报告周期结束时采用。

单位:百分比

WorkingStorageUsed

网关的上传缓冲区正在使用的总字节数。样本在报告周期结束时采用。

单位:字节

WriteBytes

报告周期内网关中所有卷写入场内应用程序的总字节数。

将此指标与 Sum 统计数据结合使用可测量吞吐量,将其与 Samples 统计数据结合使用可测量 IOPS。

单位:字节

WriteTime

报告周期内网关中所有卷从本地应用程序进行写入操作所耗费的总毫秒数。

将该指标与 Average 统计数据结合使用可测量延迟。

单位:毫秒

Storage Gateway 指标的维度

Storage Gateway 服务的 CloudWatch 命名空间是AWS/StorageGateway。数据在 5 分钟期间内自动可用,无需收费。

维度

描述

GatewayId, GatewayName

这些维度会将您请求的数据筛选为特定于网关的指标。您可以通过 GatewayIdGatewayName 的值标识要工作的网关。如果在您需要查看指标的这段时间范围内,网关的名称发生了变化,则请使用 GatewayId

网关的吞吐量和延迟数据基于网关的所有卷。有关使用网关指标的信息,请参阅衡量网关和之间的性能 AWS

VolumeId

该维度会将您请求的数据限定为特定于卷的指标。通过要使用的存储卷的 VolumeId 值标识该存储卷。有关使用卷指标的信息,请参阅测量应用程序与网关之间的性能

监控上传缓冲区

您可以在下面找到有关如何监控网关的上传缓冲区以及如何创建警报以便您在缓冲区超出指定阈值时收到通知的信息。通过使用此方法,您可以在缓冲区存储空间充满并且存储应用程序停止备份到 AWS前,向网关添加缓冲区存储。

在缓存卷和磁带网关架构中以相同的方式监控上传缓冲区。有关更多信息,请参阅卷网关的工作原理(架构)

注意

在 Storage Gateway 中的缓存卷功能发布前,WorkingStoragePercentUsedWorkingStorageUsedWorkingStorageFree 指标仅适用于存储卷的上传缓冲区。现在,请使用等效上传缓冲区指标 UploadBufferPercentUsedUploadBufferUsedUploadBufferFree。这些指标适用于两种网关架构。

关注项 如何测量
上传缓冲区使用率

UploadBufferPercentUsedUploadBufferUsedUploadBufferFree 指标与 Average 统计数据结合使用。例如,将 UploadBufferUsedAverage 结合使用,以分析一段时间内的存储使用率。

测量使用的上传缓冲区的百分比
  1. 打开 CloudWatch 控制台,网址为 https://console.aws.amazon.com/cloudwatch/

  2. 选择 StorageGateway:网关指标维度,然后找到要使用的网关。

  3. 选择 UploadBufferPercentUsed 指标。

  4. 对于 Time Range,请选择一个值。

  5. 选择 Average 统计数据。

  6. 对于 Period,请选择值 5 分钟以匹配默认报告时间。

得出的按时间排序的数据点集包含上传缓冲区的使用率。

按照以下步骤,您可以使用 CloudWatch 控制台创建警报。要了解有关警报和阈值的更多信息,请参阅 Amazon CloudWatch 用户指南中的创建 CloudWatch 警报

如需为网关的上传缓冲区设置上阈值警报
  1. 打开 CloudWatch 控制台,网址为 https://console.aws.amazon.com/cloudwatch/

  2. 选择 Create Alarm (创建警报) 可启动“Create Alarm (创建警报)”向导。

  3. 为您的警报指定指标:

    1. 在创建警报向导的选择指标页面上 GatewayId,选择AWS/StorageGateway:,GatewayName维度,然后找到要使用的网关。

    2. 选择 UploadBufferPercentUsed 指标。使用 Average 统计数据和 5 分钟的周期。

    3. 选择继续

  4. 定义警报名称、描述和阈值:

    1. 在“Create Alarm (创建警报)”向导的 Define Alarm (定义警报) 页面上,通过分别在 Name (名称)Description (描述) 框中为您的警报提供名称和说明来标识警报。

    2. 定义警报阈值。

    3. 选择继续

  5. 针对该警报配置电子邮件操作:

    1. 在“创建警报”向导的配置操作页面上,为警报状态选择警报

    2. 主题选择选择或创建电子邮件

      创建电子邮件主题意味着设置 Amazon SNS 主题。有关亚马逊 SNS 的更多信息,请参阅亚马逊用户指南中的设置亚马逊 SNS。 CloudWatch

    3. 对于 Topic (主题),请为主题输入一个描述性名称。

    4. 选择 Add Action

    5. 选择继续

  6. 检查警报设置,然后创建警报:

    1. 在“Create Alarm (创建警报)”向导的 Review (查看) 页面上,查看警报定义、指标和要执行的相关操作(例如,发送电子邮件通知)。

    2. 检查警报摘要后,选择 Save Alarm

  7. 确认您对警报主题的订阅:

    1. 打开已发送到您在创建主题时指定的电子邮件地址的 Amazon SNS 电子邮件。

      下图显示了典型电子邮件通知。

      一封示例 Amazon SNS 电子邮件。
    2. 单击电子邮件中的链接,确认您的订阅。

      将显示订阅确认。

监控缓存存储

您可以在下面找到有关如何监控网关的缓存存储以及如何创建警报以便您在缓存参数超过指定阈值时收到通知的信息。通过使用此警报,您可以了解何时向网关添加缓存存储。

您只能监控缓存卷架构中的缓存存储。有关更多信息,请参阅卷网关的工作原理(架构)

关注项 如何测量

缓存总使用率

CachePercentUsedTotalCacheSize 指标结合 Average 统计数据使用。例如,将 CachePercentUsedAverage 统计数据结合使用,以分析一段时间内的缓存使用率。

TotalCacheSize 指标仅在您向网关添加缓存时变化。

从缓存中提供的读取请求的百分比

CacheHitPercent 指标与 Average 统计数据结合使用。

通常,您希望 CacheHitPercent 保持较高。

缓存中肮脏的百分比,也就是说,它包含尚未上传到的内容 AWS

CachePercentDirty 指标与 Average 统计数据结合使用。

一般而言,您希望 CachePercentDirty 保持较低。

测量网关及其所有卷的缓存废数据百分比
  1. 打开 CloudWatch 控制台,网址为 https://console.aws.amazon.com/cloudwatch/

  2. 选择 StorageGateway:网关指标维度,然后找到要使用的网关。

  3. 选择 CachePercentDirty 指标。

  4. 对于 Time Range,请选择一个值。

  5. 选择 Average 统计数据。

  6. 对于 Period,请选择值 5 分钟以匹配默认报告时间。

得出的按时间排序的数据点集包含 5 分钟以上的时间内的缓存废数据率。

测量卷的缓存废数据百分比
  1. 打开 CloudWatch 控制台,网址为 https://console.aws.amazon.com/cloudwatch/

  2. 选择 StorageGateway:交易量指标维度,然后找到您要使用的交易量。

  3. 选择 CachePercentDirty 指标。

  4. 对于 Time Range,请选择一个值。

  5. 选择 Average 统计数据。

  6. 对于 Period,请选择值 5 分钟以匹配默认报告时间。

得出的按时间排序的数据点集包含 5 分钟以上的时间内的缓存废数据率。

了解 CloudWatch 警报

CloudWatch 警报根据指标和表达式监控有关您的网关的信息。您可以为网关添加 CloudWatch 警报并在 Storage Gateway 控制台中查看其状态。有关用于监控卷网关的指标的更多信息,请参阅了解网关指标了解卷指标。对于每个警报,您可以指定启动其“警报”状态的条件。当处于“警报”状态时,Storage Gateway 控制台中的警报状态指示符会变成红色,便于您主动监控状态。您可以将警报配置为根据状态的持续变化自动调用操作。有关 CloudWatch 警报的更多信息,请参阅亚马逊 CloudWatch 用户指南中的使用亚马逊 CloudWatch警报

注意

如果您没有查看权限 CloudWatch,则无法查看警报。

对于每个激活的网关,我们建议您创建以下 CloudWatch 警报:

  • 高 IO 等待:在 15 分钟内对于 3 个数据点,IoWaitpercent >= 20

  • 缓存脏百分比:在 20 分钟内对于 4 个数据点,CachePercentDirty > 80

  • 运行状况通知:在 5 分钟内对于 1 个数据点,HealthNotifications >= 1。配置此警报时,请将缺少数据处理设置为 notBreaching

    注意

    仅当网关在 CloudWatch 中有先前的运行状况通知时,才能设置运行状况通知警报。

对于已激活 HA 模式的 VMware 主机平台上的网关,我们还建议使用此额外 CloudWatch 警报:

  • 可用性通知:在 5 分钟内对于 1 个数据点,AvailabilityNotifications >= 1。配置此警报时,请将缺少数据处理设置为 notBreaching

下表描述了警报的状态。

省/自治区/直辖市 描述

确定

指标或表达式在定义的阈值范围内。

警报

指标或表达式超出定义的阈值。

数据不足

警报刚启动,指标不可用,或指标数据不足以判断警报状态。

不会为网关创建警报。要创建新警报,请参阅 为您的网关创建自定义 CloudWatch 警报

Unavailable

警报状态是未知的。选择 Unavailable (不可用) 以查看 Monitoring (监控) 选项卡中的错误信息。

使用 Storage Gateway 控制台创建新网关时,可以选择在初始设置过程中自动创建所有推荐的 CloudWatch 警报。有关更多信息,请参阅配置卷网关。如果要为现有网关添加或更新推荐的 CloudWatch 警报,请按以下步骤操作。

为现有网关添加或更新推荐的 CloudWatch 警报
注意

此功能需要 CloudWatch 策略权限,而这些权限不会作为预配置的 Storage Gateway 完全访问策略的一部分自动授予。在尝试创建推荐 CloudWatch 警报之前,请确保您的安全策略授予以下权限:

  • cloudwatch:PutMetricAlarm - 创建警报

  • cloudwatch:DisableAlarmActions - 关闭警报操作

  • cloudwatch:EnableAlarmActions - 打开警报操作

  • cloudwatch:DeleteAlarms - 删除警报

  1. 打开 Storage Gateway 控制台,网址为 https://console.aws.amazon.com/storagegateway/home/

  2. 在导航窗格中,选择 Gateways,然后选择要为其创建推荐 CloudWatch 警报的网关。

  3. 在网关详细信息页面上,选择监控选项卡。

  4. 警报下,选择创建推荐警报。自动创建推荐的警报。

    报部分列出了特定网关的所有 CloudWatch 警报。在这里,您可以选择和删除一个或多个警报、打开或关闭警报操作以及创建新的警报。

为您的网关创建自定义 CloudWatch 警报

CloudWatch 使用亚马逊简单通知服务 (Amazon SNS) Simple Notification Service 在警报状态发生变化时发送警报通知。警报会监控您指定的一段时间内的一个指标,并根据相对于给定阈值的指标值每隔若干个时间段执行一项或多项操作。操作是向 Amazon SNS 主题发送的通知。您可以在创建警报时创建 Amazon SNS 主题。 CloudWatch 有关 Amazon SNS 的更多信息,请参阅《Amazon Simple Notification Service 开发人员指南》中的什么是 Amazon SNS?

在 Storage Gateway 控制台中创建 CloudWatch 警报
  1. 打开 Storage Gateway 控制台,网址为 https://console.aws.amazon.com/storagegateway/home/

  2. 在导航窗格中,选择网关,然后选择要为其创建警报的网关。

  3. 在网关详细信息页面上,选择监控选项卡。

  4. 在 “警报” 下,选择 “创建警报” 以打开 CloudWatch 控制台。

  5. 使用 CloudWatch 控制台创建所需的警报类型。您可以创建下列类型的警报:

    • 静态阈值警报:基于所选指标的设定阈值的警报。在指标超过阈值的时间达到指定数量的评估期时,警报将变为“警报”状态。

      要创建静态阈值警报,请参阅 Amazon CloudWatch 用户指南中的基于静态阈值创建 CloudWatch 警报。

    • 异常检测警报:异常检测挖掘过去的指标数据并创建预期值模型。您可以为异常检测阈值设置一个值,然后在模型中 CloudWatch 使用该阈值来确定该指标的 “正常” 值范围。阈值越高,所产生的“正常”值的范围越大。您可以选择仅当指标值高于预期值范围、低于预期值范围,或出现二者情况之一时激活警报。

      要创建异常检测警报,请参阅 A mazon CloudWatch 用户指南中的基于异常检测创建 CloudWatch 警报。

    • 指标数学表达式警报:基于数学表达式中使用的一个或多个指标的警报。您指定表达式、阈值和评估期。

      要创建指标数学表达式警报,请参阅 Amazon CloudWatch 用户指南中的基于指标数学表达式创建 CloudWatch 警报。

    • 复合警报:通过监控其他警报的警报状态来确定其警报状态的警报。复合警报可以帮助您降低警报噪音。

      要创建复合警报,请参阅 Amazon CloudWatch 用户指南中的创建复合警报

  6. 在 CloudWatch 控制台中创建警报后,返回到 Storage Gateway 控制台。您可以通过执行以下操作之一查看警报:

    • 在导航窗格中,选择网关,然后选择要查看其警报的网关。在详细信息选项卡的警报下,选择CloudWatch 警报

    • 在导航窗格中,选择网关,选择要查看其警报的网关,然后选择监控选项卡。

      报部分列出了特定网关的所有 CloudWatch 警报。在这里,您可以选择和删除一个或多个警报、打开或关闭警报操作以及创建新的警报。

    • 在导航窗格中,选择网关,然后选择要查看其警报的网关的警报状态。

有关如何编辑或删除警报的信息,请参阅编辑或删除 CloudWatch 警报

注意

当您使用 Storage Gateway 控制台删除网关时,与该网关关联的所有 CloudWatch 警报也会自动删除。