OPS09-BP01 使用指标衡量运营目标和 KPI - AWS Well-Architected 框架

OPS09-BP01 使用指标衡量运营目标和 KPI

从组织获取定义运营成功的目标和 KPI,并确定指标可反映这些目标和 KPI。将基线设置为参考点,并定期重新评估。制定机制,从团队收集这些指标以供评估。DevOps Research and Assessment (DORA) 指标提供了一种常用的方法来衡量软件交付 DevOps 实践的进展。

期望结果:

  • 组织发布并分享运营团队的目标和 KPI。

  • 您建立反映这些 KPI 的指标。示例可能包括:

    • 工单队列深度或平均工单时长

    • 按问题类型分组的工单数量

    • 使用或不使用标准化操作程序(SOP)时处理问题所花费的时间

    • 从失败的代码推送中恢复所花费的时间

    • 呼叫量

常见反模式:

  • 由于开发人员被抽调去执行故障排除任务,而错过部署截止日期。开发团队主张增加人手,但由于无法衡量所占用的时间,因此无法量化他们需要多少人手。

  • 设置了 1 级服务台来处理用户呼叫。随着时间的推移,工作负载越来越多,但没有为 1 级服务台分配人手。随着呼叫次数的增加以及问题解决时间的延长,客户满意度下降,但管理层看不到此类问题的任何指标,因此未采取任何行动。

  • 有问题的工作负载已移交给单独的运营团队进行处理。与其他工作负载不同,这种新的工作负载没有提供适当的文档和运行手册。因此,团队需要花费更长的时间排除和解决故障。但是,没有任何指标记录这一点,这使得问责制变得难以实施。

建立此最佳实践的好处:工作负载监控可以显示应用程序和服务的状态,而监控运营团队则可以让所有者深入了解这些工作负载使用者之间的变化,例如不断变化的业务需求。通过创建能够反映运营状态的指标,可衡量这些团队的效率,并根据业务目标对其进行评估。指标可以突出显示支持问题,或确定何时出现偏离服务水平目标的情况。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

安排时间与业务主管和利益相关方商谈,来确定服务的总体目标。确定各个运营团队的任务,以及他们可能应对哪些挑战。利用这些信息,针对可能反映这些运营目标的关键绩效指标(KPI)进行集思广益。这些指标可能是客户满意度、从功能构思到部署所花的时间、平均问题解决时间或成本效益。

根据 KPI,确定最能反映这些目标的指标和数据来源。客户满意度可能是各种指标的组合,例如呼叫等待或回复时间、满意度得分和提出的问题类型。部署时间可能是测试和部署所需的时间,加上需要添加的所有部署后修复的总和。统计数据显示了不同类型问题所花费的时间(或这些问题的数量),其可以提供一个窗口,便于了解需要在哪些方面开展有针对性的工作。

资源

相关文档:

相关示例: