Incident Manager 中的事件生命周期 - Incident Manager

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Incident Manager 中的事件生命周期

AWS Systems Manager Incident Manager 提供了一个基于最佳实践的分步框架,用于识别和应对服务中断或安全威胁等事件。Incident Manager 主要侧重于通过完整的事件生命周期管理解决方案,帮助受影响的服务或应用程序尽快恢复正常。

Incident Manager 为事件生命周期的每个阶段提供工具和最佳实践:

事件生命周期循环流动,从警报和互动到分类到调查到事件后分析,再回到警报和互动。

警报和互动

事件生命周期的警报和互动阶段侧重于提高对应用程序和服务中事件的认识。该阶段在检测到事件之前就开始了,需要对您的应用程序有深入的了解。您可以使用 Amazon CloudWatch 指标来监控有关应用程序性能的数据,也可以利用 Amazon EventBridge 来汇总来自不同来源、应用程序和服务的警报。为应用程序设置监控后,您就可以开始对偏离历史标准的指标发出警报。要了解有关监控最佳实践的更多信息,请参阅 监控

为了支持响应者的事件诊断,您可以在 Incident Manager 中启用调查发现特征。调查发现是有关在事件发生前后发生的 AWS CodeDeploy 部署和 AWS CloudFormation 堆栈更新的信息。掌握这些信息可以减少评估潜在原因所需的时间,从而缩短从事件中恢复的平均时间 (MTTR)。

现在,您可以监控应用程序中的事件,并定义在事件发生期间使用的事件响应计划。要了解有关制定响应计划的更多信息,请参阅 在 Incident Manager 中使用响应计划。Amazon EventBridge 事件或 CloudWatch 警报可使用响应计划作为模板自动创建事件。要了解有关事件创建的更多信息,请参阅 在 Incident Manager 中创建事件

响应计划启动相关的上报计划互动计划,以便让第一响应者参与到事件中来。有关设置上报计划的更多信息,请参阅 制定上报计划。同时,AWS Chatbot 使用聊天渠道通知响应者,将他们引导到事件详细信息页面。使用聊天渠道和事件详细信息,团队可以对事件进行沟通和分类。有关在 Incident Manager 中设置聊天渠道的更多信息,请参阅 任务 2:在 AWS Chatbot 中创建聊频道

分类

分类是指第一响应者试图确定对客户的影响。Incident Manager 控制台中的事件详细信息视图为响应者提供了时间轴和指标,以帮助他们评估事件。评估事件的影响还可以为事件的响应时间、解决方案和沟通奠定基础。响应者根据从 1(严重)到 5(无影响)的影响评级来确定事件的优先级。

您的组织可以自行定义每个影响评级的确切范围。下表举例说明了每个影响等级通常是如何定义的。

影响代码 影响名称 示例定义范围
1 Critical

影响大多数客户的全面应用程序故障。

2 High

影响部分客户的全面应用程序故障。

3 Medium

对客户造成影响的部分应用程序故障。

4 Low

对客户影响有限的间歇性故障。

5 No Impact

客户目前没有受到影响,但需要采取紧急行动以避免影响。

调查和缓解

事件详细信息视图为您的团队提供了运行手册、时间轴和指标。要了解如何处理事件,请参阅 事件详细信息

运行手册通常提供调查步骤,可以自动提取数据或尝试常用的解决方案。运行手册还提供了清晰、可重复的步骤,您的团队认为这些步骤有助于缓解事件。运行手册选项卡侧重于当前的运行手册步骤,并显示过去和未来的步骤。

Incident Manager 与 Systems Manager Automation 集成以构建运行手册。使用运行手册,执行以下任一操作:

  • 管理实例和 AWS 资源

  • 自动运行脚本

  • 管理 AWS CloudFormation 资源

有关支持的操作类型的更多信息,请参阅《AWS Systems Manager 用户指南》https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-actions.html中的 Systems Manager Automation 操作参考

时间轴选项卡显示已采取的操作。时间轴会记录每个时间戳和自动创建的详细信息。要向时间轴添加自定义事件,请参阅本用户指南事件详细信息页面中的 时间轴 部分。

诊断选项卡显示自动填充的指标和手动添加的指标。此视图提供了有关事件期间应用程序活动的重要信息。

互动选项卡允许您向事件添加其他联系人,并帮助为互动的联系人提供资源,以便在参与事件后快速上手。通过定义的上报计划或个人互动计划与联系人互动。

使用聊天渠道,您可以直接与您的事件和团队中的其他响应者互动。使用 AWS Chatbot,您可以在 Slack、Microsoft Teams 和 Amazon Chime 中配置聊天渠道。在 Slack 和 Microsoft Teams 渠道中,响应者可以使用多种 ssm-incidents 命令直接从聊天渠道与事件互动。有关更多信息,请参阅 通过聊天频道进行互动

事件后分析

Incident Manager 提供了一个框架,用于对事件进行反思,采取必要步骤防止事件在未来再次发生,并从整体上改进事件响应活动。改进功能可能包括:

  • 更改事件中涉及的应用程序。您的团队可以利用这段时间改进系统,提高容错能力。

  • 更改事件响应计划。花时间总结经验教训。

  • 更改运行手册。您的团队可以深入研究解决问题所需的步骤以及您可以自动执行的步骤。

  • 更改警报。事件发生后,您的团队可能已经注意到了指标中的关键点,您可以利用这些关键点来提醒团队更早地注意到事件。

Incident Manager 通过在事件时间轴旁边使用一组事后分析问题和行动项目来促进这些潜在的改进。要了解有关通过分析进行改进的更多信息,请参阅 在 Incident Manager 中执行事件后分析