事件检测和响应中 CloudWatch 警报的示例用例 - AWS 事件检测和响应用户指南

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

事件检测和响应中 CloudWatch 警报的示例用例

以下用例提供了如何在事件检测和响应中使用 Amazon CloudWatch 警报的示例。这些示例演示了如何配置 CloudWatch 警报以监控各种 AWS 服务的关键指标和阈值,从而使您能够识别和应对可能影响应用程序和工作负载可用性和性能的潜在问题。

示例用例 A:Application Load Balancer

您可以创建以下 CloudWatch 警报,表示工作负载可能受到影响。为此,您需要创建一个公制数学,当成功连接降至特定阈值以下时,会发出警报。有关可用 CloudWatch 指标,请参阅 App lication Load Balancer 的CloudWatch 指标

指标:HTTPCode_Target_3XX_Count;HTTPCode_Target_4XX_Count;HTTPCode_Target_5XX_Count. (m1+m2)/(m1+m2+m3+m4)*100 m1 = HTTP Code 2xx || m2 = HTTP Code 3xx || m3 = HTTP Code 4xx || m4 = HTTP Code 5xx

NameSpace: AWS/applicat ionelB

ComparisonOperator(阈值):小于 x(x = 客户的阈值)。

周期:60 秒

DatapointsToAlarm: 三分之三

缺失数据处理:将丢失的数据视为数据泄露。

统计数据:Sum

下图显示了用例 A 的流程:

Application Load Balancer 的示例用例

示例用例 B:亚马逊 API Gateway

您可以创建以下 CloudWatch 警报,表示工作负载可能受到影响。为此,您需要创建一个复合指标,该指标在 API Gateway 中存在高延迟或平均数 4XX 错误时发出警报。有关可用指标,请参阅 Amazon API Gateway 的维度和指标

指标:compositeAlarmAPI Gateway (ALARM(error4XXMetricApiGatewayAlarm)) OR (AALARM(latencyMetricApiGatewayAlarm))

NameSpace: AWS/API 网关

ComparisonOperator(阈值):大于(x 或 y 个客户的阈值)

周期:60 秒

DatapointsToAlarm: 1 分中的 1

缺失数据处理:将缺失的数据视为未泄露。

统计数据:

下图显示了用例 B 的流程:

API Gateway 的示例用例

示例用例 C:亚马逊 Route 53

您可以通过创建 Route 53 运行状况检查 CloudWatch 来监控您的资源,这些检查用于收集原始数据并将其处理为可读的近乎实时的指标。您可以创建以下 CloudWatch 警报,表示工作负载可能受到影响。您可以使用这些 CloudWatch 指标创建警报,当警报超出既定阈值时触发。有关可用 CloudWatch 指标,请参阅 Route 53 运行状况检查的CloudWatch 指标

指标:R53-HC-Success

NameSpace: AWS/Route 53

阈值 HealthCheckStatus:3 分钟内 3 个数据点的 HealthCheckStatus < x(即 x 个客户的阈值)

时长:1 分钟

DatapointsToAlarm: 三分之三

缺失数据处理:将丢失的数据视为数据泄露。

统计数据:Minimum

下图显示了用例 C 的流程:

53 号公路的示例用例

示例用例 D:使用自定义应用程序监控工作负载

在这种情况下,花点时间定义适当的运行状况检查至关重要。如果您仅验证应用程序的端口已打开,则说明您尚未验证该应用程序是否正在运行。此外,调用应用程序的主页不一定是确定该应用程序是否正常运行的正确方法。例如,如果应用程序同时依赖数据库和亚马逊简单存储服务 (Amazon S3) Service,则运行状况检查必须验证所有元素。一种方法是创建一个监控网页,例如 /mon itor。监控网页会调用数据库,以确保它可以连接并获取数据。而且,监控网页会调用 Amazon S3。然后,您将负载均衡器上的运行状况检查指向 /monitor 页面。

下图显示了用例 D 的流程:

使用定制化 App 进行监控的示例用例