使用 Amazon CloudWatch 监控您的策略 - Amazon EBS

使用 Amazon CloudWatch 监控您的策略

您可以使用 CloudWatch 监控您的 Amazon Data Lifecycle Manager 生命周期策略,此工具可收集原始数据并将其处理为易读的近乎实时的指标。您可以使用这些指标来准确查看您的策略随着时间的推移创建、删除和复制了多少 Amazon EBS 快照和 EBS 支持的 AMI。还可以设置特定阈值监视警报,在达到对应阈值时发送通知或采取行动。

指标的保留期限为 15 个月,以便您可以访问历史信息,并更好地了解生命周期策略在较长时间内的表现。

有关 Amazon CloudWatch 的更多信息,请参阅 Amazon CloudWatch 用户指南

受支持的指标

Data Lifecycle Manager 命名空间包括 Amazon Data Lifecycle Manager 生命周期策略的以下指标。支持的指标因策略类型而异。

所有指标都可以在 DLMPolicyId 维度上衡量。最有用的统计工具为 sumaverage,并且度量单位为 count

选择选项卡以查看该策略类型支持的指标。

EBS snapshot policies
指标 描述

ResourcesTargeted

在快照或 EBS 支持的 AMI 策略中所指定标签针对的资源数量。

SnapshotsCreateStarted

快照策略启动的快照创建操作数。即使有多次后续重试,每个操作也只记录一次。

如果快照创建操作失败,Amazon Data Lifecycle Manager 会发送 SnapshotsCreateFailed 指标。

SnapshotsCreateCompleted

快照策略创建的快照数量。这包括在计划时间后 60 分钟内的成功重试。

SnapshotsCreateFailed

不能由快照策略创建的快照数量。这包括在计划时间后 60 分钟内的不成功重试。

SnapshotsSharedCompleted

快照策略跨账户共享的快照数量。

SnapshotsDeleteCompleted

快照或 EBS 支持的 AMI 策略删除的快照数量。此指标仅适用于策略创建的快照。它不适用于策略创建的跨区域快照副本。

此指标包括在 EBS 支持的 AMI 策略取消注册 AMI 时删除的快照。

SnapshotsDeleteFailed

不能由快照或 EBS 支持的 AMI 策略删除的快照数量。此指标仅适用于策略创建的快照。它不适用于策略创建的跨区域快照副本。

此指标包括在 EBS 支持的 AMI 策略取消注册 AMI 时删除的快照。

SnapshotsCopiedRegionStarted

快照策略启动的跨区域快照复制操作数。

SnapshotsCopiedRegionCompleted

快照策略创建的跨区域快照副本数量。这包括在计划时间的 24 小时内的成功重试。

SnapshotsCopiedRegionFailed

不能由快照策略创建的跨区域快照副本的数量。这包括在计划时间后 24 小时内的不成功重试。

SnapshotsCopiedRegionDeleteCompleted

快照策略删除的跨区域快照副本的数量,由保留规则指定。

SnapshotsCopiedRegionDeleteFailed

不能由快照策略删除的跨区域快照副本的数量,由保留规则指定。

snapshotsArchiveDeletionFailed

不能由快照策略从存档层中删除的存档快照数量。

snapshotsArchiveScheduled

计划由快照策略存档的快照数量。

snapshotsArchiveCompleted

成功由快照策略存档的快照数量。

snapshotsArchiveFailed

不能由快照策略存档的快照数量。

snapshotsArchiveDeletionCompleted

成功由快照策略从存档层中删除的存档快照数量。

PreScriptStarted

前置脚本成功启动的实例数。

如果启用了脚本重试,则每次策略运行时可以多次发出此指标。

PreScriptCompleted

前置脚本成功完成的实例数。即使前置脚本在指定的超时期间之外完成,也会发出该指标。

如果启用了脚本重试,则每次策略运行时可以多次发出此指标。

PreScriptFailed

前置脚本未能成功完成的实例数。即使前置脚本在指定的超时期间之外完成,也会发出该指标。

如果启用了脚本重试,则每次策略运行时可以多次发出此指标。

PostScriptStarted

后置脚本成功启动的实例数。

如果启用了脚本重试,则每次策略运行时可以多次发出此指标。

PostScriptCompleted

后置脚本成功完成的实例数。即使后置脚本在指定的超时期间之外完成,也会发出该指标。

如果启用了脚本重试,则每次策略运行时可以多次发出此指标。

PostScriptFailed

后置脚本未能成功完成的实例数。即使后置脚本在指定的超时期间之外完成,也会发出该指标。

如果启用了脚本重试,则每次策略运行时可以多次发出此指标。

VSSBackupStarted

VSS 备份成功启动的实例数。

如果启用了脚本重试,则每次策略运行时可以多次发出此指标。

VSSBackupCompleted

VSS 备份成功完成的实例数。即使 VSS 备份在超时期间之外完成,也会发出该指标。

如果启用了脚本重试,则每次策略运行时可以多次发出此指标。

VSSBackupFailed

VSS 备份未能成功完成的实例数。即使 VSS 备份在超时期间之外完成,也会发出该指标。

如果启用了脚本重试,则每次策略运行时可以多次发出此指标。

EBS-backed AMI policies

以下指标可与 EBS 支持的 AMI 策略一起使用:

指标 描述

ResourcesTargeted

在快照或 EBS 支持的 AMI 策略中所指定标签针对的资源数量。

SnapshotsDeleteCompleted

快照或 EBS 支持的 AMI 策略删除的快照数量。此指标仅适用于策略创建的快照。它不适用于策略创建的跨区域快照副本。

此指标包括在 EBS 支持的 AMI 策略取消注册 AMI 时删除的快照。

SnapshotsDeleteFailed

不能由快照或 EBS 支持的 AMI 策略删除的快照数量。此指标仅适用于策略创建的快照。它不适用于策略创建的跨区域快照副本。

此指标包括在 EBS 支持的 AMI 策略取消注册 AMI 时删除的快照。

SnapshotsCopiedRegionDeleteCompleted

快照策略删除的跨区域快照副本的数量,由保留规则指定。

SnapshotsCopiedRegionDeleteFailed

不能由快照策略删除的跨区域快照副本的数量,由保留规则指定。

ImagesCreateStarted

由 EBS 支持的 AMI 策略启动的 CreateImage 操作的数量。

ImagesCreateCompleted

由 EBS 支持的 AMI 策略创建的 AMI 数量。

ImagesCreateFailed

不能由 EBS 支持的 AMI 策略创建的 AMI 数量。

ImagesDeregisterCompleted

由 EBS 支持的 AMI 策略取消注册的 AMI 数量。

ImagesDeregisterFailed

不能由 EBS 支持的 AMI 策略取消注册的 AMI 数量。

ImagesCopiedRegionStarted

由 EBS 支持的 AMI 策略启动的跨区域复制操作的数量。

ImagesCopiedRegionCompleted

由 EBS 支持的 AMI 策略创建的跨区域 AMI 副本的数量。

ImagesCopiedRegionFailed

不能由 EBS 支持的 AMI 策略创建的跨区域 AMI 副本的数量。

ImagesCopiedRegionDeregisterCompleted

由 EBS 支持的 AMI 策略取消注册的跨区域 AMI 副本数量,由保留规则指定。

ImagesCopiedRegionDeregisteredFailed

不能由 EBS 支持的 AMI 策略取消注册的跨区域 AMI 副本数量,由保留规则指定。

EnableImageDeprecationCompleted

由 EBS 支持的 AMI 策略标记为弃用的 AMI 数量。

EnableImageDeprecationFailed

EBS 支持的 AMI 策略无法标记为弃用的 AMI 数。

EnableCopiedImageDeprecationCompleted

由 EBS 支持的 AMI 策略标记为弃用的跨区域 AMI 副本数量。

EnableCopiedImageDeprecationFailed

不能由 EBS 支持的 AMI 策略标记为弃用的跨区域 AMI 副本数量。

Cross-account copy event policies

跨账户复制事件策略可以使用以下指标:

指标 描述

SnapshotsCopiedAccountStarted

跨账户复制事件策略启动的跨账户快照复制操作的数量。

SnapshotsCopiedAccountCompleted

跨账户复制事件策略从另一个账户复制的快照数量。这包括在计划时间的 24 小时内的成功重试。

SnapshotsCopiedAccountFailed

不能由跨账户复制事件策略从另一个账户复制的快照数量。这包括在计划时间的 24 小时内的不成功重试。

SnapshotsCopiedAccountDeleteCompleted

跨账户复制事件策略删除的跨区域快照副本的数量,由保留规则指定。

SnapshotsCopiedAccountDeleteFailed

不能由跨账户复制事件策略删除的跨区域快照副本的数量,由保留规则指定。

查看适用于您策略的 CloudWatch 指标

您可以使用 AWS Management Console 或命令行工具来列出 Amazon Data Lifecycle Manager 发送给 Amazon CloudWatch 的指标。

Amazon EC2 console
使用 Amazon EC2 控制台查看指标
  1. 通过以下网址打开 Amazon EC2 控制台:https://console.aws.amazon.com/ec2/

  2. 在导航窗格中,选择 Lifecycle Manager(生命周期管理器)。

  3. 在网格中选择一个策略,然后选择 Monitoring(监控)选项卡。

CloudWatch console
使用 Amazon CloudWatch 控制台查看指标
  1. 访问 https://console.aws.amazon.com/cloudwatch/ 打开 CloudWatch 控制台。

  2. 在导航窗格中,选择指标

  3. 选择 EBS 命名空间,然后选择 Data Lifecycle Manager metrics(数据生命周期管理器指标)。

AWS CLI
列出 Amazon Data Lifecycle Manager 的所有可用指标

使用 list-metrics 命令。

$ C:\> aws cloudwatch list-metrics \ --namespace AWS/EBS
列出特定策略的所有指标

使用 list-metrics 命令并指定 DLMPolicyId 维度。

$ C:\> aws cloudwatch list-metrics \ --namespace AWS/EBS \ --dimensions Name=DLMPolicyId,Value=policy-abcdef01234567890
列出所有策略的单个指标

使用 list-metrics 命令并指定 --metric-name 选项。

$ C:\> aws cloudwatch list-metrics \ --namespace AWS/EBS \ --metric-name SnapshotsCreateCompleted

绘制策略的指标图表

在您创建策略后,可以打开 Amazon EC2 控制台并在 Monitoring(监控)选项卡上查看策略的监控图表。每个图表以一个可用的 Amazon EC2 指标为基础。

可供使用图表指标如下:

  • 资源目标已确定(基于 ResourcesTargeted

  • 快照创建已启动(基于 SnapshotsCreateStarted

  • 快照创建已完成(基于 SnapshotsCreateCompleted

  • 快照创建已失败(基于 SnapshotsCreateFailed

  • 快照共享已完成(基于 SnapshotsSharedCompleted

  • 快照删除已完成(基于 SnapshotsDeleteCompleted

  • 快照删除已失败(基于 SnapshotsDeleteFailed

  • 快照跨区域复制已启动(基于 SnapshotsCopiedRegionStarted

  • 快照跨区域复制已完成(基于 SnapshotsCopiedRegionCompleted

  • 快照跨区域复制已失败(基于 SnapshotsCopiedRegionFailed

  • 快照跨区域复制删除已完成(基于 SnapshotsCopiedRegionDeleteCompleted

  • 快照跨区域复制删除已失败(基于 SnapshotsCopiedRegionDeleteFailed

  • 快照跨账户复制已启动(基于 SnapshotsCopiedAccountStarted

  • 快照跨账户复制已完成(基于 SnapshotsCopiedAccountCompleted

  • 快照跨账户复制已失败(基于 SnapshotsCopiedAccountFailed

  • 快照跨账户复制删除已完成(基于 SnapshotsCopiedAccountDeleteCompleted

  • 快照跨账户复制删除已失败(基于 SnapshotsCopiedAccountDeleteFailed

  • AMI 创建已开始(基于ImagesCreateStarted

  • AMI 创建已完成(基于 ImagesCreateCompleted

  • AMI 创建已失败(基于 ImagesCreateFailed

  • AMI 取消注册已完成(基于 ImagesDeregisterCompleted

  • AMI 取消注册已失败(基于 ImagesDeregisterFailed

  • AMI 跨区域复制已启动(基于 ImagesCopiedRegionStarted

  • AMI 跨区域复制已完成(基于 ImagesCopiedRegionCompleted

  • AMI 跨区域复制已失败(基于 ImagesCopiedRegionFailed

  • AMI 跨区域取消注册已完成(基于 ImagesCopiedRegionDeregisterCompleted

  • AMI 跨区域复制取消注册已失败(基于 ImagesCopiedRegionDeregisteredFailed

  • AMI 启用弃用已完成(基于 EnableImageDeprecationCompleted

  • AMI 启用弃用已失败(基于 EnableImageDeprecationFailed

  • AMI 跨区域复制启用弃用已完成(基于 EnableCopiedImageDeprecationCompleted

  • AMI 跨区域复制启用弃用已失败(基于 EnableCopiedImageDeprecationFailed

为策略创建 CloudWatch 警报

您可以创建 CloudWatch 警报来监控您的策略的 CloudWatch 指标。当该指标达到指定阈值时,CloudWatch 自动向您发送通知。您可以使用 CloudWatch 控制台创建警报。

有关使用 CloudWatch 控制台创建警报的信息,请参阅 Amazon CloudWatch 用户指南 中的下列主题。

使用案例示例

以下是使用案例示例:

示例 1:ResourcesTargeted 指标

您可以使用 ResourcesTargeted 指标来监控特定策略每次运行时所针对的资源总数。这使您能够在目标资源的数量低于或高于预期阈值时触发告警。

例如,如果您希望每日策略创建不超过 50 卷的备份,可以创建告警,该告警会在 ResourcesTargetedsum 大于 50 超过 1 小时时发送电子邮件通知。通过这种方式,您可以确保没有从已错误标记的卷意外创建任何快照。

可以使用以下命令创建此告警:

$ C:\> aws cloudwatch put-metric-alarm \ --alarm-name resource-targeted-monitor \ --alarm-description "Alarm when policy targets more than 50 resources" \ --metric-name ResourcesTargeted \ --namespace AWS/EBS \ --statistic Sum \ --period 3600 \ --threshold 50 \ --comparison-operator GreaterThanThreshold \ --dimensions "Name=DLMPolicyId,Value=policy_id" \ --evaluation-periods 1 \ --alarm-actions sns_topic_arn

示例 2:SnapshotDeleteFailed 指标

您可以使用 SnapshotDeleteFailed 指标,以根据策略的快照保留规则来监控删除快照的故障情况。

例如,如果您已创建应每 12 小时自动删除一次快照的策略,则可以创建一个告警,该告警会在 SnapshotDeletionFailedsum 大于 0 超过 1 小时通知您的工程团队。这有助于调查不正确的快照保留,并确保您的存储成本不会因不必要的快照而增加。

可以使用以下命令创建此告警:

$ C:\> aws cloudwatch put-metric-alarm \ --alarm-name snapshot-deletion-failed-monitor \ --alarm-description "Alarm when snapshot deletions fail" \ --metric-name SnapshotsDeleteFailed \ --namespace AWS/EBS \ --statistic Sum \ --period 3600 \ --threshold 0 \ --comparison-operator GreaterThanThreshold \ --dimensions "Name=DLMPolicyId,Value=policy_id" \ --evaluation-periods 1 \ --alarm-actions sns_topic_arn

示例 3:SnapshotsCopiedRegionFailed 指标

使用 SnapshotsCopiedRegionFailed 指标以确定您的策略何时无法将快照复制到其他区域。

例如,如果您的策略每天跨区域复制快照,则可以创建告警,该告警会在 SnapshotCrossRegionCopyFailedsum 大于 0 超过 1 小时时向您的工程团队发送 SMS。这对于验证策略是否成功复制了谱系中的后续快照非常有用。

可以使用以下命令创建此告警:

$ C:\> aws cloudwatch put-metric-alarm \ --alarm-name snapshot-copy-region-failed-monitor \ --alarm-description "Alarm when snapshot copy fails" \ --metric-name SnapshotsCopiedRegionFailed \ --namespace AWS/EBS \ --statistic Sum \ --period 3600 \ --threshold 0 \ --comparison-operator GreaterThanThreshold \ --dimensions "Name=DLMPolicyId,Value=policy_id" \ --evaluation-periods 1 \ --alarm-actions sns_topic_arn

管理报告失败操作的策略

有关当其中一个策略报告失败操作指标的意外非零值时该怎么办的更多信息,请参阅如果 Amazon Data Lifecycle Manager 在 CloudWatch 指标中报告失败的操作,我该怎么办? AWS 。