OPS10-BP01 使用流程来管理事件、意外事件和问题 - AWS Well-Architected Framework

OPS10-BP01 使用流程来管理事件、意外事件和问题

贵组织拥有处理事件、意外事件和问题的流程。事件 是在工作负载中发生但可能不需要干预的事情。意外事件 是需要干预的事件。 问题 是需要干预或无法解决的反复发生的事件。您需要一些流程来减轻这些事件对业务的影响,并确保做出适当的响应。

当您的工作负载发生意外事件和问题时,您需要一些流程来处理它们。您将如何与利益相关者沟通事件的状态? 谁负责监督领导应对工作? 您用什么工具来减轻事件的影响? 这些是您建立可靠的响应流程所需回答的一些问题的例子。

这些流程必须记录在一个中央位置,并可供参与您工作负载的任何人使用。如果您没有中央 Wiki 或文档存储区,可以使用版本控制存储库。随着流程的发展,您将不断更新这些计划。

接下来将需要对问题进行自动化。这些事情占用了您的时间,限制了您的创新能力。首先构建一个可重复的流程来缓解问题。随着时间的推移,将重点放在自动化缓解或修复根本问题上。这样就可以腾出时间来改进您的工作负载。

期望结果: 贵组织拥有处理事件、意外事件和问题的流程。这些流程被记录下来并存储在一个中央位置。它们随着流程的更改而更新。

常见反模式:

  • 周末发生了一起意外事件,值班工程师不知道该怎么办。

  • 一位客户向您发送一封电子邮件,说应用程序关闭了。您重新启动服务器以修复该问题。这种情况经常发生。

  • 有一起意外事件,多个团队独立工作,试图解决该问题。

  • 部署发生在您的工作负载中,而不会被记录下来。

建立此最佳实践的好处:

  • 您有一条关于工作负载中事件的审计跟踪。

  • 从意外事件中恢复的时间缩短了。

  • 团队成员能够一致地解决意外事件和问题。

  • 调查意外事件时,大家更加团结一致。

未建立这种最佳实践的情况下暴露的风险等级:

实施指导

实施这种最佳实践意味着您正在跟踪工作负载事件。您建立了处理意外事件和问题的流程。这些流程被记录下来、共享并经常更新。发现问题,确定优先级,并加以解决。

客户示例

AnyCompany Retail 的内部 Wiki 中有一部分专门用于事件、意外事件和问题管理的流程。所有事件均发送至 Amazon EventBridge。问题在 AWS Systems Manager OpsCenter 中被识别为 OpsItems,并按优先级进行修复,减少了无差别的劳动。当流程发生变化时,它们会在内部 Wiki 中进行更新。他们使用 AWS Systems Manager Incident Manager 来管理意外事件并协调缓解工作。

实施步骤

  1. 事件

    • 跟踪工作负载中发生的事件,即使不需要人工干预。

    • 与工作负载利益相关者合作,制定一份应跟踪的事件清单。一些示例包括已完成的部署或成功的修补。

    • 您可以使用 Amazon EventBridgeAmazon Simple Notification Service 之类的服务生成自定义事件以进行跟踪。

  2. 意外事件

    • 首先要确定意外事件的沟通计划。必须告知哪些利益相关者? 您将如何让他们了解情况? 谁负责监督协调工作? 我们建议建立一个内部聊天渠道进行沟通和协调。

    • 为支持您工作负载的团队定义上报路径,特别是在团队没有随时待命的轮换情况下。根据您的支持级别,您还可以向 AWS Support 提交工单。

    • 创建一个调查该意外事件的行动手册。这应该包括沟通计划和详细的调查步骤。在您的调查中包括检查 AWS Health Dashboard

    • 记录意外事件响应计划。沟通意外事件管理计划,以便内部和外部客户了解参与规则以及对他们的期望。就使用方法对您的团队成员进行培训。

    • 客户可以使用 Incident Manager 来建立和管理他们的意外事件响应计划。

    • 企业支持客户可以向他们的技术客户经理请求参加 意外事件管理研讨会 。这场有指导意义的研讨会可测试您现有的意外事件响应计划,并帮助您找出需要改进之处。

  3. 问题

    • 必须在您的 ITSM 系统中识别和跟踪问题。

    • 确定所有已知问题,并根据修复工作量和对工作负载的影响来确定它们的优先级。

      用于确定问题优先级的行动优先级矩阵。
    • 先解决影响大、工作量小的问题。一旦这些问题得到解决,就继续处理那些属于“影响小且工作量小”象限的问题。

    • 随着您的工作负载增长和扩展,您可以使用 Systems Manager OpsCenter 来识别这些问题,为它们附上运行手册,并跟踪它们。

实施计划的工作量级别: 中。您需要一个流程和工具来实施这种最佳实践。记录您的流程,让与工作负载相关的任何人都可以使用它们。经常更新它们。您建立了一个管理问题、缓解问题或解决问题的流程。

资源

相关最佳实践:

相关文档:

相关视频:

相关示例:

相关服务: