OPS02-BP03 运营活动已确定了对其绩效负责的所有者 - AWS Well-Architected 框架

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

OPS02-BP03 运营活动已确定了对其绩效负责的所有者

了解谁负责对定义的工作负载执行特定活动,以及为什么负责。了解谁负责执行活动,可告知谁来开展活动、验证结果并向活动负责人提供反馈。

期望结果:

组织明确定义了在对定义的工作负载执行特定活动,以及响应工作负载生成的事件时,需要承担的相关责任。组织记录了流程的所属责任和实施方法,并让这些信息可供搜索。在发生组织变更时审查和更新责任,并且团队跟踪和衡量缺陷和低效率识别活动的绩效。实施反馈机制来跟踪缺陷和改进,并支持迭代改进。

常见反模式:

  • 未记录责任。

  • 脚本呈现碎片化,分布在许多孤立的操作员工作站上。脚本的使用方法只有少数人了解,或将其非正式地称为团队知识

  • 旧的流程需要更新,但没有人知道该流程的负责人是谁,原作者已不在组织中。

  • 无法发现流程和脚本,并且在需要时(例如,在响应意外事件时)无法使用。

建立此最佳实践的好处:

  • 了解谁负责执行活动、需要采取行动时要通知谁,以及谁将执行操作、验证结果并向活动负责人提供反馈。

  • 流程和程序可改进运行工作负载的工作。

  • 新的团队成员可以更快地投入工作中。

  • 可以减少用于缓解意外事件的时间。

  • 不同的团队使用相同的流程和程序来一致地执行任务。

  • 团队可以使用可重复的流程来扩展其流程。

  • 在团队之间移交工作负载责任时,标准化的流程和程序有助于减轻移交造成的影响。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

要开始定义责任,请从现有文档开始,例如责任矩阵、流程和程序、职责和责任,以及工具和自动化。审核记录的流程责任,并主持围绕流程责任开展讨论。与团队一起审核,找出文档中的责任和实际流程之间的不一致之处。讨论向该团队的内部客户提供的服务,从而确定团队之间的期望差距。

分析并解决差异。确定改进机会,并寻找经常请求开展的资源密集型活动,这些活动通常是可改进的有力候选方案。探索最佳实践、模式和规范性指南,以便简化和标准化改进。记录改进机会并一直跟踪改进,直至完成。

随着时间的推移,这些程序应该逐步进化为可作为代码运行,从而减少人工干预的需求。例如,过程可以作为 AWS Lambda 函数、 AWS CloudFormation 模板或 AWS Systems Manager 自动化文档启动。验证这些程序在相应的存储库中是否受版本控制,并包含适当的资源标记,以便团队能够轻松识别所有者和文档。记录开展活动的责任,然后监控自动化是否成功启动和运行,以及期望结果的实现情况。

客户示例

AnyCompany 零售业将所有权定义为拥有应用程序或共享通用架构实践和技术的应用程序组的流程的团队或个人。最初,公司将流程和程序记录为文档管理系统的 step-by-step指南。它们使用托管应用程序 AWS 账户 的和账户内特定资源组上的标签 AWS Organizations 来管理这些 AWS 账户过程。随着时间的推移,R AnyCompany etail 会将这些流程转换为代码,并使用基础设施即代码(通过诸如 CloudFormation 或 AWS Cloud Development Kit (AWS CDK) 模板之类的服务)定义资源。操作流程变成 S AWS ystems Manager 中的自动化文档或 AWS Lambda 函数,这些文档可以作为计划任务启动,以响应 Amazon CloudWatch 警报或亚马逊 EventBridge 事件之类的事件,也可以通过 IT 服务管理 (ITSM) 平台中的请求启动。所有流程都有标签,用于标识其负责人。团队在由该流程的代码存储库生成的 Wiki 页面中,管理用于自动化和流程的文档。

实施步骤

  1. 记录现有的流程和程序。

    1. 查看并验证它们是否是 up-to-date。

    2. 确认每个流程或程序都有负责人。

    3. 对程序实施版本控制。

    4. 只要可能,对具有相同架构设计的工作负载和环境,共享流程和程序。

  2. 建立反馈和改进机制。

    1. 定义有关流程审查频率的政策。

    2. 定义审核者和审批者流程。

    3. 实施问题队列或票证队列,以便提供和跟踪反馈。

    4. 尽可能为变更批准委员会的流程和程序提供预先批准和风险分类 (CAB)。

  3. 让需要运行这些流程和程序的人员能够访问和搜索到流程和程序。

    1. 使用标签来指示可以在哪里访问工作负载的流程和程序。

    2. 使用有意义的错误和事件消息,指明用于解决问题的正确流程或程序。

    3. 使用 Wiki 或文档管理,确保可在整个组织内一致地搜索流程和程序。

  4. 在适当时,实现自动化。

    1. 在服务和技术提供的地方API,开发自动化。

    2. 验证是否能充分理解流程,并开发用户案例和要求来实现这些流程的自动化。

    3. 衡量流程和程序的成功使用情况,并跟踪问题来支持迭代改进。

实施计划的工作量级别:

资源

相关最佳实践:

相关文档:

相关视频:

相关示例: