OPS10-BP02 每个警报都有一个处理程序 - 卓越运营支柱

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

OPS10-BP02 每个警报都有一个处理程序

要想实现有效和高效的事件管理,为系统中的每个警报建立清晰明确的流程至关重要。这种做法可确保对每个警报都采取具体的、可操作的响应,从而提高运营的可靠性和响应能力。

期望结果:每个警报都会启动一个具体的、明确的响应计划。在可能的情况下,将响应过程自动化,并具有明确的负责人和上报路径。警报与 up-to-date知识库相关联,因此任何操作员都可以始终如一地有效地做出响应。响应速度快且全面统一,从而提高运营效率和可靠性。

常见反模式:

  • 没有针对警报预定义响应流程,导致采用了不及时的权宜解决方案。

  • 警报过载会导致遗漏重要的警报。

  • 由于缺乏明确的责任人和责任关系,警报的处理方式不一致。

建立此最佳实践的好处:

  • 仅发出可操作的警报,缓解警报疲劳情况。

  • 缩短了解决操作问题的平均时间 (MTTR)。

  • 缩短了平均调查时间 (MTTI),这有助于缩短MTTR。

  • 增强了大范围运营响应的能力。

  • 提高了处理运营事件的一致性和可靠性。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

针对每个警报设置一个流程,这包括为每个警报制定明确的响应计划,尽可能自动处理响应,并根据运营反馈和不断变化的要求不断完善这些流程。

实施步骤

下图说明了 AWS Systems Manager Incident Manager 中的事件管理工作流程。它旨在通过自动创建事件来响应 Amazon CloudWatch 或 Amazon 的特定事件,从而快速响应运营问题 EventBridge。在自动或手动创建事件时,Incident Manager 会集中管理事件,组织相关的 AWS 资源信息,并启动预定义的响应计划。这包括运行 Systems Manager Automation 运行手册以便立即采取行动,以及在中创建父操作工作项 OpsCenter 以跟踪相关任务和分析。这种简化的流程可以加快和协调整个 AWS 环境中的事件响应。

描述事件管理器工作原理的流程图 AWS Chatbot,升级计划和联系人以及运行手册流入响应计划,这些计划流入事件和分析。亚马逊 CloudWatch 也参与了应对计划。

  1. 使用复合警报:在中创建复合警报 CloudWatch 以对相关警报进行分组,从而降低噪音并允许更有意义的响应。

  2. 将 Amazon CloudWatch 警报与事件管理器集成配置 CloudWatch 警报以在中自动创建事件AWS Systems Manager Incident Manager

  3. 将 Amazon EventBridge 与事件管理器集成:创建EventBridge 规则以应对事件并使用定义的响应计划创建事件。

  4. 在 Incident Manager 中为意外事件做准备:

    • 在 Incident Manager 中为每种类型的警报制定详细的响应计划

    • 通过 AWS Chatbot 建立聊天频道,连接到 Incident Manager 中的响应计划,在发生意外事件时,协调在 Slack、Microsoft Teams 和 Amazon Chime 等各个平台之间的沟通。

    • Systems Manager Automation 运行手册纳入 Incident Manager 中,推动对意外事件的自动响应。

资源

相关最佳实践:

相关文档:

相关视频:

相关示例: