OPS08-BP04 创建可操作的警报

及时检测和响应应用程序行为的偏差至关重要。尤其重要的是，认识到基于关键绩效指标（KPI）的结果何时面临风险或何时出现意外异常。基于 KPI 的警报可确保收到的信号与业务或运营影响直接相关。这种可操作警报的方法可促进主动响应，并有助于维护系统性能和可靠性。

期望结果：接收及时、相关且可操作的警报，以便快速发现和缓解潜在问题，尤其是在 KPI 结果面临风险时。

常见反模式：

设置过多非关键警报，导致警报疲劳。
不根据 KPI 对警报进行优先级排序，因此很难了解问题对业务的影响。
忽视解决根本原因，导致针对同一问题出现重复警报。

建立此最佳实践的好处：

关注可操作的相关警报，减少警报疲劳。
主动检测和缓解问题，增加系统的正常运行时间并提高可靠性。
与常用的警报和通信工具集成，增强团队协作并更快解决问题。

在未建立这种最佳实践的情况下暴露的风险等级：高

实施指导

要创建有效的警报机制，必须使用指标、日志和跟踪数据来标记基于 KPI 的结果何时存在风险，或何时检测到异常情况。

实施步骤

确定关键绩效指标（KPI）：确定应用程序的 KPI。警报应与这些 KPI 相关联，以便准确反映业务影响。
实施异常检测：
- 使用 Amazon CloudWatch 异常检测：将 Amazon CloudWatch 异常检测设置为自动检测异常模式，这有助于仅针对真正的异常生成警报。
- 使用 AWS X-Ray Insights：
  1. 设置 X-Ray Insights，检测跟踪数据中的异常。
  2. 配置 X-Ray Insights 的通知，以便在检测到问题时收到警报。
- 与 Amazon DevOps Guru 集成：
  1. 利用 Amazon DevOps Guru 的机器学习功能，结合现有数据来检测操作异常。
  2. 导航到 DevOps Guru 中的通知设置以设置异常警报。
实施可操作的警报：设计能够提供足够信息的警报，以便立即采取行动。
1. 使用 Amazon EventBridge 规则监控 AWS Health 事件，或者以编程方式与 AWS Health API 集成，以便在收到 AWS Health 事件时自动执行操作。这些可以是常规操作，例如将所有计划的生命周期事件消息发送到聊天界面，也可以是特定操作，例如在 IT 服务管理工具中启动工作流程。
减少警报疲劳：尽量减少非关键警报。团队接收到大量无关紧要的警报时，他们可能无法监督关键问题，从而降低警报机制的整体有效性。
设置复合警报：使用 Amazon CloudWatch 复合警报合并多个警报。
与警报工具集成：纳入 Ops Genie 和 PagerDuty 等工具。
加入聊天应用程序中的 Amazon Q 开发者版：集成聊天应用程序中的 Amazon Q 开发者版，以便将警报转发给 Amazon Chime、Microsoft Teams 和 Slack。
基于日志的警报：使用 CloudWatch 中的日志指标筛选条件，根据特定的日志事件创建警报。
审查和迭代：定期重新审视和完善警报配置。

实施计划的工作量级别：中

资源

相关最佳实践：

相关文档：

相关视频：

相关示例：

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

OPS08-BP03 分析工作负载跟踪数据

OPS08-BP05 创建控制面板