OPS10-BP07 自动响应事件 - 卓越运营支柱

OPS10-BP07 自动响应事件

要想实现快速、一致和无错误的运维处理,对事件进行自动响应是关键所在。创建简化的流程,使用多种工具来自动管理和响应事件,尽可能减少人工干预并提高运维效率。

期望的结果:

  • 利用自动化功能,减少人为错误并缩短解决问题的用时。

  • 一致且可靠的运维事件处理。

  • 提高运维效率和系统可靠性。

常见反模式:

  • 手动处理事件,容易导致延误和出错。

  • 忽视了自动化功能在重复性关键任务中的作用。

  • 反复地手动执行任务,导致丧失了对警报的警惕性,可能会遗漏关键问题。

建立此最佳实践的好处:

  • 加快响应事件的速度,减少系统停机时间。

  • 通过自动化和一致的事件处理,实现可靠的运维。

未建立这种最佳实践的情况下暴露的风险等级:

实施指导

纳入自动化功能,用以创建高效的运维工作流,并尽可能减少人工干预。

实施步骤

  1. 发现自动化机会: 确定可以自动处理的重复性任务,例如问题修复、工单信息补充、容量管理、扩展、部署和测试。

  2. 发现自动化提示:

  3. 实现事件驱动型自动化:

  4. 通过自动化功能执行风险缓解:

实施计划的工作量级别:

资源

相关最佳实践:

相关文档:

相关视频:

相关示例: