什么是 AWS Systems Manager Incident Manager? - Incident Manager

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 AWS Systems Manager Incident Manager?

Incident Manager 是一项功能 AWS Systems Manager,旨在帮助您缓解影响托管应用程序的事件并从中恢复 AWS。

在的背景下 AWS,事件是指任何可能对业务运营产生重大影响的计划外中断或服务质量下降。因此,组织必须制定应对策略,以有效缓解并从中恢复过来,采取措施防止将来发生事件。

Incident Manager 通过以下方式帮助缩短解决事件的时间:

  • 提供自动化计划,让负责响应事件的人员高效进行互动。

  • 提供相关的故障排除数据。

  • 使用预定义的自动化运行手册,启用自动响应操作。

  • 提供与所有利益相关者合作和沟通的方法。

Incident Manager 内置的特征和工作流程基于 Amazon 自成立以来一直在开发的事件响应最佳实践。事件管理器与亚马逊 CloudWatch、 AWS CloudTrail AWS Systems Manager、和亚马逊 AWS 服务 等集成 EventBridge。

主要组件和特征

该部分介绍 Incident Manager 中用于设置事件响应计划的特征。

响应计划

响应计划作为模板,用于定义事件发生时必须采取的措施。它包括以下信息:

  • 事件发生时谁需要做出响应。

  • 为缓解事件而建立的自动化响应。

  • 响应者必须使用用于沟通和接收有关事件的自动通知的协作工具。

事件检测

您可以将 Amazon CloudWatch 警报和 Amazon EventBridge 事件配置为在检测到影响您的 AWS 资源的条件或变化时创建事件。

运行手册自动化支持

您可以从 Incident Manager 中启动自动化运行手册,自动对事件做出关键响应,并为第一响应者提供详细的步骤。

互动和上报

互动计划规定了每个独特事件都要通知所有人。您可以指定已添加到 Incident Manager 的单个联系人,也可以指定在 Incident Manager 中创建的待命时间表。互动计划还规定了上报路径,以帮助确保在事件响应过程中利益相关者的可见性和积极参与。

待命时间表

Incident Manager 中的待命时间表由您为该计划创建的一个或多个轮换组成。每次轮换最多可包括 30 个联系人。在上报计划或响应计划中加入待命时间表后,就能确定在发生需要响应者干预的事件时,谁会收到通知。待命时间表有助于确保您根据事件响应的需要获得全面、冗余的全天候服务。

积极协作

事件响应人员通过与 AWS Chatbot 客户整合来积极应对事件。 AWS Chatbot 支持为使用的事件管理器创建聊天频道 Slack, Microsoft Teams,或者是 Amazon Chime。响应者可以直接相互通信,接收有关事件的自动通知,并且 Slack 以及 Microsoft Teams—直接运行一些事件管理器命令行界面 (CLI) 操作。

事件诊断

事件发生期间,响应者可以在事件管理器控制台中查看 up-to-date信息。然后,响应者可以根据信息的变化创建后续项目,并使用自动化运行手册对其进行补救。

其他服务的调查发现

为了支持响应者的事件诊断,您可以在 Incident Manager 中启用调查发现特征。调查结果是有关在事件发生前后发生的 AWS CodeDeploy 部署和 AWS CloudFormation 堆栈更新的信息,这些信息涉及一个或多个可能与事件相关的资源。获得这些信息可以缩短评估潜在原因所需的时间,从而缩短从事件中恢复 (MTTR) 的平均时间。

事件后分析

在事件解决后,您可以使用事件后分析来确定事件响应的改进措施,包括检测和缓解时间。分析还可以帮助您了解事件的根本原因。Incident Manager 会创建建议的后续行动项目,您可以利用这些项目改进事件响应。

使用 Incident Manager 的好处

了解在事件检测和响应操作中使用 Incident Manager 的好处。

该部分介绍在实施 Incident Manager 响应计划时,您的组织可以获得的优势。

即时有效地诊断问题

当您的服务出现任何计划外中断或降低服务质量时,您配置的 Amazon CloudWatch 警报和亚马逊 EventBridge 事件可以自动创建事件。

CloudWatch 当指标或表达式的值在多个时间段内相对于阈值发生变化时,警报会检测并报告。 EventBridge 事件是由于您在 EventBridge 规则中指定的环境、应用程序或服务发生变化而创建的。创建警报或事件时,可以指定在 Incident Manager 中创建事件的操作以及适当的响应计划,以促进事件的互动、上报和缓解。

事件管理器提供了通过使用指标自动收集和跟踪与事件相关的 CloudWatch 指标的功能。除了通过 CloudWatch 警报创建事件时为事件生成的自动指标外,您还可以实时手动添加指标,以便为事件中的响应者提供额外的背景和数据。

使用 Incident Manager 事件时间轴按时间顺序显示关注点。响应者还可以使用时间轴添加自定义事件,以描述他们所做的事情或发生的事情。自动关注点包括:

  • CloudWatch 警报或 EventBridge 规则会造成事件。

  • 事件指标将报告给 Incident Manager。

  • 响应者进行互动。

  • 运行手册步骤成功完成。

有效互动

Incident Manager 通过使用联系人、待命时间表、上报计划和聊天渠道将事件响应者聚集在一起。您可以直接在事件管理器中定义个人联系人并指定联系人首选项(电子邮件或语音)。SMS您可以将联系人添加到待命时间表轮换中,以确定在特定时间段内由谁处理事件。使用已定义的联系人和待命时间表,您可以制定上报计划,以便在事件发生期间的正确时间与必要的响应者互动。

实时协作

事件期间的沟通是更快解决问题的关键。使用设置为使用的 AWS Chatbot 客户端 Slack, Microsoft Teams,或者 Amazon Chime,你可以将响应者召集到他们首选的联网聊天频道中,在那里他们可以直接与事件互动,也可以相互交流。Incident Manager 还会在聊天频道中显示事件响应者的实时行动,为其他人提供上下文信息。

自动恢复服务

Incident Manager 通过使用自动化运行手册,使您的响应者能够专注于解决事件所需的关键任务。在 Incident Manager 中,运行手册是为解决事件而预定义的一系列操作。它们根据需要将自动任务的强大功能与手动步骤相结合,使响应者有更多时间进行分析和应对影响。

防止未来事件

通过使用 Incident Manager 进行事件后分析,您的团队可以制定更强大的响应计划,并在整个应用程序中进行更改,以防止未来发生事件和停机。事后分析还有助于迭代学习和改进运行手册、响应计划和指标。

Incident Manager 与其他多项 AWS 服务 和第三方服务和工具集成,可帮助您检测和解决事件,并与其API运营进行间接交互并管理基础架构。有关信息,请参阅产品和服务与 Incident Manager 集成

访问 Incident Manager

您可以使用以下任一方式访问 Incident Manager:

Incident Manager 区域和配额

并非所有系统管理器都 AWS 区域 支持事件管理器。

要查看有关 Incident Manager 区域和配额的信息,请参阅 Amazon Web Services 一般参考 中的AWS Systems Manager Incident Manager 端点和配额

Incident Manager 的定价

使用 Incident Manager 需要付费。有关更多信息,请参阅 AWS Systems Manager 的定价

注意

与本服务相关的其他 AWS 服务、 AWS 内容和第三方内容可能会单独收费,并受附加条款的约束。

有关可帮助您优化 AWS 环境成本、安全性和性能的服务的概述,请参阅AWS Support 用户指南AWS Trusted Advisor中的。 Trusted Advisor