OPS08-BP04 创建可操作的警报
及时检测和响应应用程序行为的偏差至关重要。尤其重要的是,识别基于关键绩效指标(KPI)的结果何时处于风险当中,或何时出现意外的异常情况。基于 KPI 的警报可确保您收到的信号与业务或运营影响直接相关。这种可操作警报的方法可促进主动响应,并有助于维护系统性能和可靠性。
期望结果:接收及时、相关且可操作的警报,以便快速找出和缓解潜在问题,尤其是在 KPI 结果面临风险时。
常见反面模式:
-
设置过多非关键警报,导致警报疲劳。
-
不根据 KPI 对警报进行优先级排序,因此很难理解问题对业务的影响。
-
忽视根本原因,导致针对同一问题出现重复警报。
建立此最佳实践的好处:
-
通过关注可操作且相关的警报,减少警报疲劳。
-
通过主动检测和缓解问题,改善系统的正常运行时间和可靠性。
-
通过与常用的警报和通信工具集成,增进团队协作并更快解决问题。
在未建立这种最佳实践的情况下暴露的风险等级:高
实施指导
要创建有效的警报机制,必须使用指标、日志和跟踪数据来标记基于 KPI 的结果何时存在风险,或何时检测到异常情况。
实施步骤
-
确定关键性能指标(KPI):确定应用程序的 KPI。警报应与这些 KPI 相关联,以准确反映业务影响。
-
实施异常检测:
-
使用 Amazon CloudWatch 异常检测:设置 Amazon CloudWatch 异常检测功能以自动检测异常模式,这有助于您只对真正的异常情况生成警报。
-
使用 AWS X-Ray Insights:
-
设置 X-Ray Insights 以检测跟踪数据中的异常。
-
配置 X-Ray Insights 通知,以便在检测到问题时收到提醒。
-
-
与 Amazon DevOps Guru 集成:
-
利用 Amazon DevOps Guru
的机器学习功能,结合现有数据来检测运营异常。 -
导航至 DevOps Guru 中的通知设置,设置异常警报。
-
-
-
实施可操作的警报:设计能够提供足够信息的警报,以便立即采取行动。
-
使用 Amazon EventBridge 规则监控 AWS Health 事件,或者以编程方式与 AWS Health API 集成,以便在收到 AWS Health 事件时自动执行操作。这些可以是常规操作,例如将所有计划的生命周期事件消息发送到聊天界面,也可以是特定操作,例如在 IT 服务管理工具中启动工作流。
-
-
减少警报疲劳:极大限度地减少非关键警报。当团队被大量无关紧要的警报淹没时,他们可能会失去对关键问题的监督,从而降低警报机制的整体有效性。
-
设置复合警报:使用 Amazon CloudWatch 复合警报
来整合多个警报。 -
加入 AWS Chatbot:集成 AWS Chatbot
以便将警报转发到 Amazon Chime、Microsoft Teams 和 Slack。 -
基于日志的警报:使用 CloudWatch 中的日志指标筛选器,根据特定的日志事件创建警报。
-
审查和迭代:定期重新审视和完善警报配置。
实施计划的工作量级别:中等
资源
相关最佳实践:
相关文档:
相关视频:
相关示例: