OPS10-BP07 自动响应事件
要想实现快速、一致和无错误的运维处理,对事件进行自动响应是关键所在。创建简化的流程,使用多种工具来自动管理和响应事件,尽可能减少人工干预并提高运维效率。
期望的结果:
-
利用自动化功能,减少人为错误并缩短解决问题的用时。
-
一致且可靠的运维事件处理。
-
提高运维效率和系统可靠性。
常见反模式:
-
手动处理事件,容易导致延误和出错。
-
忽视了自动化功能在重复性关键任务中的作用。
-
反复地手动执行任务,导致丧失了对警报的警惕性,可能会遗漏关键问题。
建立此最佳实践的好处:
-
加快响应事件的速度,减少系统停机时间。
-
通过自动化和一致的事件处理,实现可靠的运维。
未建立这种最佳实践的情况下暴露的风险等级: 中
实施指导
纳入自动化功能,用以创建高效的运维工作流,并尽可能减少人工干预。
实施步骤
-
发现自动化机会: 确定可以自动处理的重复性任务,例如问题修复、工单信息补充、容量管理、扩展、部署和测试。
-
发现自动化提示:
-
评测和定义特定的条件或指标,以便能够通过使用 Amazon CloudWatch 警报操作启动自动化响应。
-
使用 Amazon EventBridge
来响应 AWS 服务、自定义工作负载和 SaaS 应用程序中的事件。
-
-
实现事件驱动型自动化:
-
使用 AWS Systems Manager Automation 运行手册来简化维护、部署和修复任务。
-
在 Incident Manager 中创建事件 会自动收集所涉及 AWS 资源的详细信息,并将这些信息添加到事件。
-
使用 适用于 AWS 的配额监控程序
来主动监控配额。 -
使用 AWS Auto Scaling
自动调整容量来保持可用性和性能。 -
使用 Amazon CodeCatalyst
自动处理开发管道。 -
进行烟雾测试,或者 使用合成监控持续监控端点和 API。
-
-
通过自动化功能执行风险缓解:
-
实施 自动化安全响应
来快速应对风险。 -
使用 AWS Systems Manager 状态管理器 来减少配置偏差。
-
实施计划的工作量级别: 高
资源
相关最佳实践:
相关文档:
相关视频:
相关示例: