OPS10-BP02 针对每个提醒设置一个流程
针对引发提醒的任何事件制定明确的响应措施(运维手册或管理手册),并明确指定负责人。这样可以确保您及时有效地响应运营事件,并防止可以针对其采取措施的事件被不重要的通知所掩盖。
常见反模式:
-
监控系统会向您显示已批准的连接流和其他消息。由于消息量过大,导致您错过了需要干预的周期性错误消息。
-
您收到提醒,指示网站停机。发生这种情况时,没有明确的流程。您被迫采用临时方法来诊断和解决问题。边处理边开发流程会延长恢复时间。
建立此最佳实践的好处: 仅在需要采取措施时发出提醒可以防止低价值提醒遮掩高价值提醒。制定一个可随时采取措施的提醒流程,可以对环境中的事件做出一致而迅速的响应。
未建立此最佳实践暴露的风险等级: 高
实施指导
-
提醒响应流程:对于引发提醒的任何事件,都要制定明确的响应措施(运行手册或管理手册),并明确指定负责其成功完成的负责人(例如个人、团队或角色)。响应的执行可能是自动的,也可能由其他团队完成,但是负责人应负责确保响应流程获得预期的成果。设置这些流程可以确保您及时有效地响应运营事件,并防止可以针对其采取措施的事件被不重要的通知所掩盖。例如,可以实施自动扩展来扩展 Web 前端,但是运营团队应负责确保自动扩展规则和限制符合工作负载需求。
资源
相关文档:
相关视频: