OPS08-BP04 创建可操作的警报

及时检测和响应应用程序行为的偏差至关重要。尤其重要的是，识别基于关键绩效指标（KPI）的结果何时处于风险当中，或何时出现意外的异常情况。基于 KPI 的警报可确保您收到的信号与业务或运营影响直接相关。这种可操作警报的方法可促进主动响应，并有助于维护系统性能和可靠性。

期望的结果： 接收及时、相关且可操作的警报，以便快速找出和缓解潜在问题，尤其是在 KPI 结果面临风险时。

常见反模式：

设置过多非关键警报，导致警报疲劳。
不根据 KPI 对警报进行优先级排序，因此很难理解问题对业务的影响。
忽视根本原因，导致针对同一问题出现重复警报。

建立此最佳实践的好处：

通过关注可操作且相关的警报，减少警报疲劳。
通过主动检测和缓解问题，改善系统的正常运行时间和可靠性。
通过与常用的警报和通信工具集成，增进团队协作并更快解决问题。

未建立这种最佳实践的情况下暴露的风险等级： 高

实施指导

要创建有效的警报机制，必须使用指标、日志和跟踪数据来标记基于 KPI 的结果何时存在风险，或何时检测到异常情况。

实施步骤

定义关键绩效指标（KPI）： 确定应用程序的 KPI。警报应与这些 KPI 相关联，以准确反映业务影响。
实现异常检测：
- 使用 AWS Cost Anomaly Detection： 设置 AWS Cost Anomaly Detection 以自动检测异常模式，确保仅针对真正的异常情况生成警报。
- 使用 X-Ray Insights：
  1. 设置 X-Ray Insights 以检测跟踪数据中的异常。
  2. 配置 X-Ray Insights 通知以便在检测到问题时收到提醒。
- 与 DevOps Guru 集成：
  1. 利用 Amazon DevOps Guru 的机器学习功能，结合现有数据来检测操作异常。
  2. 导航到通知设置（在 DevOps Guru 中）以设置异常警报。
实施可操作的警报： 设计能够提供足够信息的警报，以便立即采取行动。
减少警报疲劳： 尽量减少非关键警报。如果存在大量无关紧要的警报，团队将不堪重负，可能导致忽视关键问题，并降低警报机制的整体有效性。
设置复合警报： 使用 Amazon CloudWatch 复合警报来整合多个警报。
与警报工具集成： 纳入多个工具，例如 Ops Genie 和 PagerDuty。
利用 Amazon Q Developer in chat applications 集成 Amazon Q Developer in chat applications以便将警报转发到 Chime、Microsoft Teams 和 Slack。
基于日志的警报： 使用日志指标筛选器（在 CloudWatch 中）来根据特定的日志事件创建警报。
查看并迭代： 定期重新审视和完善警报配置。

实施计划的工作量级别： 中。

资源

相关最佳实践：

相关文档：

相关视频：

相关示例：

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

OPS08-BP03 分析工作负载跟踪数据

OPS08-BP05 创建控制面板