OPS07-BP03 使用运行手册执行程序 - 卓越运营支柱

OPS07-BP03 使用运行手册执行程序

运行手册是实现特定结果的书面流程。运行手册由人们为完成某件事而遵循的一系列步骤组成。早在航空发展的早期,运行手册便已用于运营。在云运营中,我们使用运行手册来降低风险并实现期望结果。简单而言,运行手册就是完成一项任务的核对清单。

运行手册是运营工作负载的重要组成部分。从新团队成员入职到部署主要版本,运行手册都是一个成文的流程,无论谁使用,都能获得一致的结果。运行手册应发布在中央位置,并随着流程的发展而更新,因为更新运行手册是变更管理流程的一个关键组成部分。运行手册还应包括关于错误处理、工具、权限、异常和出现问题时进行上报的指导。

随着组织日益成熟,应开始实现运行手册自动化。从简短且经常使用的运行手册开始。使用脚本语言来实现步骤自动化或让步骤更容易执行。自动化前几本运行手册后,将花时间自动化更复杂的运行手册。随着时间的推移,大多数运行手册应以某种方式实现自动化。

期望结果:团队有一系列执行工作负载任务的分步指南。运行手册包含期望结果、必要的工具和权限,以及关于错误处理的说明。运行手册存储在一个中央位置(版本控制系统)并经常更新。例如,在应用程序发出警报、出现操作问题和计划内生命周期事件期间,运行手册可为团队提供监控、沟通和响应关键账户 AWS Health 事件的功能。

常见反模式:

  • 依靠记忆完成流程的每个步骤。

  • 手动部署更改而不使用核对清单。

  • 不同的团队成员执行相同的流程,但执行不同的步骤或取得不同的结果。

  • 运行手册与系统更改和自动化不同步。

建立此最佳实践的好处:

  • 降低手动任务的错误率。

  • 以一致的方式执行操作。

  • 新的团队成员可以更早地开始执行任务。

  • 可以自动化运行手册来减少工作量。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

根据组织的成熟程度,运行手册可以采用多种形式。它们至少应该包含一个分步文本文档。应明确指出期望结果。清楚地记录必要的特殊权限或工具。提供关于错误处理和出现问题时进行上报的详细指导。列出运行手册负责人,并将运行手册发布在中央位置。一旦运行手册编写完成,让团队中的其他人运行它来进行验证。随着程序的发展,根据变更管理流程更新运行手册。

随着组织日益成熟,文本运行手册应实现自动化。使用 AWS Systems Manager Automation 等服务,可以将纯文本转换为可以根据工作负载运行的自动化代码。这些自动化代码可以根据发生的事件运行,从而减轻维持工作负载的运营负担。AWSSystems Manager Automation 还提供了低代码视觉对象设计体验,可以更轻松地创建自动化运行手册。

客户示例

AnyCompany Retail 必须在软件部署期间执行数据库架构更新。云运营团队与数据库管理团队合作,构建了一个用于手动部署这些更改的运行手册。该运行手册以核对清单的形式列出了流程中的每个步骤。其中有一节是关于出错时的错误处理。他们在内部 Wiki 上发布了该运行手册和其他运行手册。云运营团队计划在未来的冲刺阶段实现运行手册的自动化。

实施步骤

如果当前没有文档存储库,则版本控制存储库是开始构建运行手册库的理想之处。可以使用 Markdown 构建运行手册。我们提供了一个示例运行手册模板,您可以用该模板开始构建运行手册。

# Runbook Title ## Runbook Info | Runbook ID | Description | Tools Used | Special Permissions | Runbook Author | Last Updated | Escalation POC | |-------|-------|-------|-------|-------|-------|-------| | RUN001 | What is this runbook for? What is the desired outcome? | Tools | Permissions | Your Name | 2022-09-21 | Escalation Name | ## Steps 1. Step one 2. Step two
  1. 如果当前没有文档存储库或 Wiki,请在版本控制系统中创建一个新的版本控制存储库。

  2. 确定没有运行手册的流程。理想流程是半定期执行的流程,步骤少,且故障影响小。

  3. 在文档存储库中,使用模板创建新的草稿 Markdown 文档。填写运行手册书名以及“运行手册信息”下的必填字段。

  4. 从第一步开始,填写运行手册的“步骤”部分。

  5. 将运行手册分发给团队成员。让他们使用运行手册来验证这些步骤。如果有遗漏或需要澄清的地方,请更新运行手册。

  6. 将运行手册发布到内部文档存储区。发布后,告诉团队和其他利益相关方。

  7. 随着时间的推移,将构建运行手册库。随着该库的增长,开始努力实现运行手册的自动化。

实施计划的工作量级别:低。运行手册的最低标准是一个分步文本指南。实现运行手册自动化可能会增加实施工作量。

资源

相关最佳实践:

相关文档:

相关视频:

相关示例:

相关服务: