REL11-BP06 当事件影响可用性时发出通知
在检测到重大事件时发送通知,即使由事件引发的问题已经自动解决。
自动修复使您的工作负载变得可靠。不过,它也可能会掩盖需要处理的潜在问题。实施适当的监控和措施,以便检测问题的模式,包括那些被自动修复的问题,从而从根本上解决问题。Amazon CloudWatch 警报会基于发生的故障触发。它们还可能由于执行自动修复操作而被触发。CloudWatch 警报可被配置为发送电子邮件,或使用 Amazon SNS 集成将事件记录到第三方事件跟踪系统。
常见反模式:
-
发出不需要有人采取措施的告警。
-
执行自动修复,但不通知需要进行该修复。
建立此最佳实践的好处: 恢复事件通知将确保您不会忽略不经常发生的问题。
未建立此最佳实践暴露的风险等级: 中
实施指导
在业务关键性能指标超出低阈值时发出警报:收到关于您的业务 KPI 的低阈值告警,可帮助您及时了解工作负载不可用或未正常工作的情况。
-
针对调用自动修复的事件发出告警:您可以使用任何已创建的自动化功能直接调用 SNS API 来发送通知。
资源
相关文档: