PERF05-BP01 建立关键性能指标(KPI)来衡量工作负载运行状况和性能 - AWS Well-Architected 框架

PERF05-BP01 建立关键性能指标(KPI)来衡量工作负载运行状况和性能

确定用于定量和定性地衡量工作负载性能的 KPI。KPI 有助于您衡量与业务目标相关的工作负载的运行状况和性能。

常见反模式:

  • 只监控系统级指标来深入了解工作负载,却不了解这些指标对业务的影响。

  • 认为 KPI 已作为标准指标数据发布和共享。

  • 没有定义可量化、可衡量的 KPI。

  • KPI 与业务目标或策略不符。

建立此最佳实践的好处:确定可反映工作负载运行状况和性能的具体 KPI,有助于调整团队的工作重点,并确定成功的业务成果。与所有部门共享这些指标可让所有人了解并一致认可阈值、期望值和业务影响。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

利用 KPI,业务和工程团队可在衡量目标和策略以及如何将这些因素结合来取得业务成果方面达成共识。例如,网站工作负载可能会将页面加载时间用作总体性能指示。该指标将是用来衡量用户体验的多个数据点之一。除了确定页面加载时间阈值之外,您还应记录未达到理想性能要求时的预期成果或业务风险。较长的页面加载时间会直接影响最终用户的体验,降低他们的用户体验评分,并会导致客户流失。在定义 KPI 阈值时,请结合考虑行业基准和最终用户期望。例如,如果当前行业基准是两秒内加载网页,而您的最终用户希望网页在一秒内加载,那么您在建立 KPI 时应考虑这两个数据点。

您的团队必须使用实时的精细数据和历史数据作为参考来评估工作负载 KPI,并创建控制面板来对 KPI 数据执行指标计算,从而获得运维和利用率方面的洞察。应记录 KPI,包括支持业务目标和策略的阈值,并且应与所监控的指标对应起来。当业务目标、策略或最终用户需求发生变化时,应重新审视 KPI。  

实施步骤

  • 确定利益相关方:确定并记录关键的业务利益相关方,包括开发和运营团队。

  • 定义目标:与这些利益相关方合作,定义并记录工作负载目标。考虑工作负载的关键性能方面(例如吞吐量、响应时间和成本),以及业务目标(例如用户满意度)。

  • 查看行业最佳实践:查看行业最佳实践,确定与工作负载目标相一致的相关 KPI。

  • 确定指标:确定与工作负载目标一致且有助于衡量绩效和业务目标的指标。根据这些指标建立 KPI。示例指标包括平均响应时间或并发用户数量等衡量指标。

  • 定义并记录 KPI:使用行业最佳实践和工作负载目标为工作负载 KPI 设定目标。使用这些信息设置 KPI 阈值的严重性或警报级别。确定并记录未满足 KPI 时带来的风险和影响。

  • 实施监控:使用 Amazon CloudWatchAWS Config 等监控工具收集指标并衡量 KPI。

  • 直观地传达 KPI:使用 Amazon QuickSight 等控制面板工具来可视化 KPI,并就此与利益相关方沟通。

  • 分析和优化:定期审查并分析 KPI,确定需要从哪些方面改进工作负载。与利益相关方协作实施这些改进。

  • 重新审视和完善:定期审查指标和 KPI,评测其有效性,尤其是在业务目标或工作负载绩效发生变化时。

资源

相关文档:

相关视频:

相关示例: