OPS09-BP01 使用指标衡量运营目标和 KPI - AWS Well-Architected Framework

OPS09-BP01 使用指标衡量运营目标和 KPI

从您的组织获取定义运营成功的目标和 KPI,并确定指标反映了这些目标和 KPI。将基线设置为参考点,并定期重新评估。制定机制,从团队那里收集这些指标以供评估。

期望的结果:

  • 组织运营团队的目标和 KPI 已发布并共享。

  • 已建立反映这些 KPI 的指标。示例可能包括:

    • 工单队列深度或平均工单时长

    • 按问题类型分组的工单数量

    • 使用或不使用标准化操作程序(SOP)时处理问题所花费的时间

    • 从失败的代码推送中恢复所花费的时间

    • 呼叫量

常见反模式:

  • 由于开发人员被拉去执行故障排除任务,因此而错过部署截止日期。开发团队主张增加人手,但由于无法衡量被占用的时间,因此无法量化他们需要多少人手。

  • 设置了一级服务台来处理用户呼叫。随着时间的推移,工作负载越来越多,但没有为一级服务台分配人手。随着通话次数的增加以及问题解决时间的延长,客户满意度下降,但管理层看不到此类问题的任何指标,因此未采取任何行动。

  • 有问题的工作负载被移交给单独的运营团队进行处理。与其他工作负载不同,这种新的工作负载没有提供适当的文档和运行手册。因此,团队需要花费更长的时间解决和排除故障。但是,没有任何指标记录这一点,这使得问责制变得难以实施。

建立此最佳实践的好处: 工作负载监控可以显示应用程序和服务的状态,而监控运营团队则可以让所有者深入了解这些工作负载的使用者之间的变化,例如不断变化的业务需求。通过创建能够反映运营状态的指标,衡量这些团队的效率,并根据业务目标对其进行评估。指标可以突出显示支持问题,或确定何时出现偏离服务级别目标的情况。

未建立这种最佳实践的情况下暴露的风险等级:

实施指导

安排时间与业务主管和利益相关方会面,以确定服务的总体目标。确定各个运营团队的任务,以及他们可能应对哪些挑战。利用这些信息,针对可能反映这些运营目标的关键绩效指标(KPI)进行集思广益。这些指标可能是客户满意度、从功能构思到部署所花的时间、平均问题解决时间等。

根据 KPI,确定可能最能反映这些目标的指标和数据来源。客户满意度可能是各种指标的组合,例如呼叫等待或回复时间、满意度得分和提出的问题类型。部署时间可能是测试和部署所需的时间,加上需要添加的所有部署后修复的总和。显示不同类型问题所花费的时间(或这些问题的数量)的统计数据,可以提供一个窗口,让您了解需要在哪些方面开展有针对性的工作。

资源

相关文档: