在 Incident Manager 中使用响应计划 - Incident Manager

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Incident Manager 中使用响应计划

响应计划允许您计划如何响应影响用户的事件。响应计划就像一个模板,其中包含有关参与人员、事件的预期严重程度、要启动的自动运行手册以及要监控的指标等信息。

最佳实践

提前计划事件时,可以减少事件对团队的影响。在设计响应计划时,团队应考虑以下最佳实践。

  • 简化互动——确定最适合处理事件的团队。如果您互动的分发名单太广,或者您互动的团队不对,就会在事件中造成混乱,浪费响应者的时间。

  • 可靠的上报——对于响应计划中的互动,我们建议您选择互动计划,而不是联系人或待命时间表。互动计划应明确在事件发生期间要参与的个人联系人或待命时间表(其中包含多个轮换联系人)。由于有时可能无法联系到您的互动计划中指定的响应者,因此您应在响应计划中配置备用响应者,以应对这些情况。有了备用联系人,如果无法联系主要联系人和次要联系人,或出现其他意外中断,Incident Manager 仍会将事件通知联系人。

  • 运行手册——使用运行手册提供可重复、易于理解的步骤,以减轻响应者在事件期间所承受的压力。

  • 协作——使用聊天频道简化事件期间的沟通。聊天频道可帮助响应者及时了解最新信息。他们还可以通过这些频道与其他响应者共享信息。

制定响应计划

使用以下步骤创建响应计划并自动执行事件响应。

要创建响应计划
  1. 打开 Incident Manager 控制台并在导航栏中选择响应计划

  2. 选择创建响应计划

  3. 名称中,输入唯一且可识别的响应计划名称,以用于响应计划的 Amazon 资源名称(ARN)。

  4. (可选)在显示名称中,输入更易于理解的名称,以帮助您在创建事件时识别响应计划。

  5. 继续为事件记录指定默认值

指定事件默认值

为了帮助您更有效地管理事件,您可以指定默认值。Incident Manager 将这些值应用于与响应计划关联的所有事件。

要指定事件默认值
  1. 标题中,输入该事件的标题,以帮助您在 Incident Manager 主页上识别该事件。

  2. 影响中,选择影响级别以指明根据该响应计划创建的事件的潜在范围,例如严重。有关 Incident Manager 中影响级别的信息,请参阅 分类

  3. (可选)在摘要中,输入根据该响应计划创建的事件类型的简短摘要。

  4. (可选)对于重复数据删除字符串,输入重复数据删除字符串。Incident Manager 使用此字符串来防止相同的根本原因在同一个账户中创建多个事件。

    重复数据删除字符串是系统用来检查重复事件的术语或短语。如果您指定重复数据删除字符串,Incident Manager 会在创建事件时在 dedupeString 字段中搜索包含相同字符串的未解决事件。如果检测到重复事件,Incident Manager 会删除较新事件的重复数据到现有事件中。

    注意

    默认情况下,Incident Manager 会自动删除由同一 Amazon CloudWatch 警报或 Amazon EventBridge 事件创建的多个事件的重复数据。您无需输入自己的重复数据删除字符串即可防止这些资源类型出现重复。

  5. (可选)在事件标签下,添加要分配给根据该响应计划创建的事件的标签密钥和值。

    您必须拥有事件记录资源的 TagResource 权限,才能在响应计划中设置事件标签。

  6. 继续指定一个可选的聊天频道,供解决者就事件相互沟通。

(可选)指定事件响应聊天频道

当您在响应计划中加入聊天频道时,响应者会通过该频道接收事件更新。他们可以使用聊天命令直接从聊天频道与事件互动。

使用 AWS Chatbot,您可以为 Slack 或 Amazon Chime 创建一个频道,以便在您的响应计划中使用。有关在 AWS Chatbot 中创建聊天频道的信息,请参阅《AWS Chatbot 管理员指南》

重要

Incident Manager 必须有发布到聊天频道的 Amazon Simple Notification Service (Amazon SNS) 主题的权限。如果没有向 SNS 主题发布的权限,则无法将其添加到响应计划中。Incident Manager 向 SNS 主题发布测试通知,以验证权限。

有关聊天频道的更多信息,请参阅 在 Incident Manager 中使用聊天频道

要指定事件响应聊天频道
  1. 对于聊天频道,选择一个 AWS Chatbot 响应者在事件期间可以进行交流的聊天频道。

    提示

    要在 AWS Chatbot 中创建新的聊天频道,请选择配置新的 Chatbot 客户端

  2. 对于聊天频道 SNS 主题,选择要在事件发生期间发布到的其他 SNS 话题。在多个 AWS 区域 中添加 SNS 主题可增加冗余,以防事件发生时某个区域瘫痪。

  3. 继续选择在事件发生时需要联系的联系人、待命时间表和上报计划

(可选)选择与事件响应互动的资源

在事件发生时,务必要确定最合适的响应者。我们建议您采取以下措施作为最佳实践:

  1. 在上报计划中添加联系人和待命时间表作为上报渠道。

  2. 选择上报计划作为响应计划的互动方式。

有关联系人和上报计划的更多信息,请参阅 在 Incident Manager 中使用联系人在 Incident Manager 中使用上报计划

要选择与事件响应互动的资源
  1. 对于互动,选择任意数量的上报计划、待命时间表和个人联系人。

  2. 继续选择性地指定一个运行手册,作为事件缓解措施的一部分来运行。

(可选)指定事件缓解措施的运行手册

您可以使用 AWS Systems Manager 的一项功能 AWS Systems Manager 自动化中的运行手册来自动执行 AWS Cloud 环境中的常见应用程序和基础设施任务。

每个运行手册都定义了运行手册工作流程。运行手册工作流程包括 Systems Manager 在托管式或其他 AWS 资源类型上执行的操作。在 Incident Manager 中,运行手册推动事件响应和缓解措施。

有关在响应计划中使用运行手册的更多信息,请参阅 在 Incident Manager 中使用 Systems Manager Automation 运行手册

要指定事件缓解措施的运行手册:

  1. 对于运行手册,请执行以下操作之一:

    • 选择从模板中克隆运行手册,复制默认的 Incident Manager 运行手册。在运行手册名称中,为新运行手册输入描述性名称。

    • 选择选择现有运行手册。选择要使用的所有者运行手册版本

      提示

      要从头开始创建运行手册,请选择配置新运行手册

      有关创建运行手册的更多信息,请参阅 在 Incident Manager 中使用 Systems Manager Automation 运行手册

  2. 参数区域中,提供所选运行手册所需的任何参数。

    可用的参数由运行手册指定。一个运行手册可能需要的参数可能与另一个运行手册不同。有些参数可能是必填参,而另一些则是可选参数。

    在许多情况下,您可以选择手动输入参数的静态值,例如 Amazon EC2 实例 ID 列表。您也可以让 Incident Manager 提供事件动态生成的参数值。

  3. (可选)对于 AutomationAssumeRole,请指定要使用的 AWS Identity and Access Management(IAM) 角色。该角色必须具有运行手册中指定的各个命令所需的权限。

    注意

    如果未指定 AssumeRole,Incident Manager 会尝试使用运行手册服务角色来运行运行手册中指定的各个命令。

    请从以下内容中选择:

    • 输入 ARN 值——手动输入 AsmeRole 的 Amazon 资源名称(ARN),格式为 arn:aws:iam::account-id:role/assume-role-name。例如,arn:aws:iam::123456789012:role/MyAssumeRole

    • 使用现有服务角色——从账户现有角色列表中选择一个具有所需权限的角色。

    • 创建新服务角色——从 AWS 托管式策略中选择要附加到您的 AssumeRole 的策略。选择此选项后,对于 AWS 托管式策略,请从列表中选择一个或多个策略。

      您可以接受建议的新角色默认名称,也可以输入自己选择的名称。

      注意

      该新运行手册的服务角色与您选择的特定运行手册相关联。它不能用于不同的运行手册。这是因为策略的资源部分不支持其他运行手册。

  4. 对于运行手册的服务角色,指定要使用的 IAM 角色来提供访问和启动运行手册本身的工作流程所需的权限。

    至少,该角色必须允许对您的特定运行手册执行 ssm:StartAutomationExecution 操作。要使运行手册跨账户运行,该角色还必须允许您在 Incident Manager 中的跨区域和跨账户事件管理 期间创建的 AWS-SystemsManager-AutomationExecutionRole 角色执行 sts:AssumeRole 操作。

    请从以下内容中选择:

    • 创建新的服务角色——Incident Manager 为您创建一个运行手册的服务角色,其中包括启动运行手册工作流程所需的最低权限。

      对于角色名称,您可以接受建议的默认名称,也可以输入自己选择的名称。我们建议使用建议的名称或在名称中保留运行手册的名称。这是因为新的 AssumeRole 与您选择的特定运行手册相关联,可能不包括其他运行手册所需的权限。

    • 使用现有的服务角色——您或 Incident Manager 之前创建的 IAM 角色会授予所需的权限。

      角色名称中,选择要使用的现有角色的名称。

  5. 展开其他选项,然后选择以下选项之一,指定运行手册工作流程应在其中运行的 AWS 账户。

    • 响应计划所有者的帐户——在创建运行手册工作流程的 AWS 账户 中启动运行手册工作流程。

    • 受影响的帐户——在开始或报告事件的账户中启动运行手册工作流程。

      当您使用 Incident Manager 处理跨账户场景,且运行手册需要访问受影响的账户中的资源进行补救时,请选择受影响的账户

  6. 继续可选地将 PagerDuty 服务集成到响应计划中

(可选)将 PagerDuty 服务纳入响应计划中

要将 PagerDuty 服务纳入响应计划中

当您将 Incident Manager 与 PagerDuty 集成时,每当 Incident Manager 创建事件时,PagerDuty 都会创建相应的事件。PagerDuty 中的事件除了使用 Incident Manager 中的策略外,还使用您在其中定义的寻呼工作流程和上报策略。PagerDuty 可将 Incident Manager 中的时间轴事件作为事件备注。

  1. 展开第三方集成,然后选择启用 PagerDuty 集成复选框。

  2. 选择密钥中,在 AWS Secrets Manager 中选择存储 PagerDuty 账户访问凭证的密钥。

    有关将 PagerDuty 凭证存储在 Secrets Manager 密钥中的信息,请参阅 将 PagerDuty 访问凭证存储在 AWS Secrets Manager 密钥中

  3. 对于 PagerDuty 服务,请从您的 PagerDuty 账户中选择要在其中创建 PagerDuty 事件的服务。

  4. 继续添加可选标签并创建响应计划

添加标签并创建响应计划

要添加标签并创建响应计划
  1. (可选)在标签 区域,将一个或多个标签密钥名称/值对应用到响应计划。

    标签是您分配给资源的可选元数据。通过标签,您可以按各种标准(如用途、所有者或环境)对资源进行分类。例如,您可能想要标记一个响应计划,以确定其旨在缓解的事件类型、所包含的上报渠道类型或与之相关的上报计划。有关标记 Incident Manager 资源的更多信息,请参阅 在 Incident Manager 中标记资源

  2. 选择创建响应计划