OPS08-BP04 创建可操作的警报 - AWS Well-Architected Framework

OPS08-BP04 创建可操作的警报

及时检测和响应应用程序行为的偏差至关重要。尤其重要的是,识别基于关键绩效指标(KPI)的结果何时处于风险当中,或何时出现意外的异常情况。基于 KPI 的警报可确保您收到的信号与业务或运营影响直接相关。这种可操作警报的方法可促进主动响应,并有助于维护系统性能和可靠性。

期望的结果: 接收及时、相关且可操作的警报,以便快速找出和缓解潜在问题,尤其是在 KPI 结果面临风险时。

常见反模式:

  • 设置过多非关键警报,导致警报疲劳。

  • 不根据 KPI 对警报进行优先级排序,因此很难理解问题对业务的影响。

  • 忽视根本原因,导致针对同一问题出现重复警报。

建立此最佳实践的好处:

  • 通过关注可操作且相关的警报,减少警报疲劳。

  • 通过主动检测和缓解问题,改善系统的正常运行时间和可靠性。

  • 通过与常用的警报和通信工具集成,增进团队协作并更快解决问题。

未建立这种最佳实践的情况下暴露的风险等级:

实施指导

要创建有效的警报机制,必须使用指标、日志和跟踪数据来标记基于 KPI 的结果何时存在风险,或何时检测到异常情况。

实施步骤

  1. 定义关键绩效指标(KPI): 确定应用程序的 KPI。警报应与这些 KPI 相关联,以准确反映业务影响。

  2. 实现异常检测:

    • 使用 AWS Cost Anomaly Detection: 设置 AWS Cost Anomaly Detection 以自动检测异常模式,确保仅针对真正的异常情况生成警报。

    • 使用 X-Ray Insights:

      1. 设置 X-Ray Insights 以检测跟踪数据中的异常。

      2. 配置 X-Ray Insights 通知 以便在检测到问题时收到提醒。

    • 与 DevOps Guru 集成:

      1. 利用 Amazon DevOps Guru 的机器学习功能,结合现有数据来检测操作异常。

      2. 导航到 通知设置 (在 DevOps Guru 中)以设置异常警报。

  3. 实施可操作的警报: 设计能够提供足够信息的警报,以便立即采取行动。

  4. 减少警报疲劳: 尽量减少非关键警报。如果存在大量无关紧要的警报,团队将不堪重负,可能导致忽视关键问题,并降低警报机制的整体有效性。

  5. 设置复合警报: 使用 Amazon CloudWatch 复合警报 来整合多个警报。

  6. 与警报工具集成: 纳入多个工具,例如 Ops GeniePagerDuty

  7. 利用 Amazon Q Developer in chat applications 集成 Amazon Q Developer in chat applications以便将警报转发到 Chime、Microsoft Teams 和 Slack。

  8. 基于日志的警报: 使用 日志指标筛选器 (在 CloudWatch 中)来根据特定的日志事件创建警报。

  9. 查看并迭代: 定期重新审视和完善警报配置。

实施计划的工作量级别: 中。

资源

相关最佳实践:

相关文档:

相关视频:

相关示例: