PERF05-BP01 建立关键性能指标(KPI)来衡量工作负载运行状况和性能 - AWS Well-Architected Framework

PERF05-BP01 建立关键性能指标(KPI)来衡量工作负载运行状况和性能

确定用于定量和定性地衡量工作负载性能的 KPI。KPI 有助于您衡量与业务目标相关的工作负载的运行状况和性能。

常见反模式:

  • 您只监控系统级指标以深入了解工作负载,而不了解这些指标对业务的影响。

  • 您认为 KPI 已作为标准指标数据发布和共享。

  • 您没有定义可量化、可衡量的 KPI。

  • KPI 与业务目标或策略不符。

建立此最佳实践的好处: 确定可反映工作负载运行状况和性能的具体 KPI,有助于调整团队的工作重点,并确定成功的业务成果。与所有部门共享这些指标可让所有人了解并一致认可阈值、期望值和业务影响。

未建立这种最佳实践的情况下暴露的风险等级:

实施指导

利用 KPI,业务和工程团队可在衡量目标和策略以及如何将这些因素结合来取得业务成果方面达成共识。例如,网站工作负载可能会将页面加载时间用作总体性能指示。该指标将是用来衡量用户体验的多个数据点之一。除了确定页面加载时间阈值之外,您还应记录未达到理想性能要求时的预期成果或业务风险。较长的页面加载时间会直接影响最终用户的体验,降低他们的用户体验评分,并会导致客户流失。在定义 KPI 阈值时,请结合考虑行业基准和最终用户期望。例如,如果当前行业基准是两秒内加载网页,而您的最终用户希望网页在一秒内加载,那么您在建立 KPI 时应考虑这两个数据点。

您的团队必须使用实时的精细数据和历史数据作为参考来评估工作负载 KPI,并创建控制面板来对 KPI 数据执行指标计算,从而获得运维和利用率方面的洞察。应记录 KPI,包括支持业务目标和策略的阈值,并且应与所监控的指标对应起来。当业务目标、策略或最终用户需求发生变化时,应重新审视 KPI。  

实施步骤

  1. 确定并记录关键业务利益相关者。

  2. 与这些利益相关者合作,确定并记录您的工作负载目标。

  3. 查看行业最佳实践,确定与您的工作负载目标相一致的相关 KPI。

  4. 使用行业最佳实践和工作负载目标为工作负载 KPI 设定目标。使用这些信息设置 KPI 阈值的严重性或警报级别 。

  5. 确定并记录未满足 KPI 时带来的风险和影响。

  6. 确定并记录有助于您建立 KPI 的指标。

  7. 使用监控工具,例如 Amazon CloudWatchAWS Config 收集指标并衡量 KPI。

  8. 使用控制面板直观显示 KPI 并与利益相关者进行沟通。

  9. 定期审查和分析指标,确定需要在哪些方面改进工作负载。

  10. 当业务目标或工作负载性能发生变化时,重新评估 KPI。

资源

相关文档:

相关视频:

相关示例: