OPS08-BP01 分析工作负载指标 - AWS Well-Architected Framework

OPS08-BP01 分析工作负载指标

实施应用程序遥测后,定期分析收集的指标。虽然延迟、请求、错误和容量(或配额)有助于深入了解系统性能,但优先审查业务成果指标至关重要。这样可以确保您做出与业务目标相一致的数据驱动型决策。

期望的结果: 准确洞察工作负载性能,推动做出以数据为依据的决策,确保与业务目标相一致。

常见反模式:

  • 孤立地分析指标,而不考虑其对业务成果的影响。

  • 过度依赖技术指标,而不重视业务指标。

  • 很少审查指标,错过了实时决策机会。

建立此最佳实践的好处:

  • 进一步了解技术性能与业务成果之间的相互关系。

  • 以实时数据为依据改善决策流程。

  • 在问题影响业务结果之前主动找出和缓解问题。

未建立这种最佳实践的情况下暴露的风险等级:

实施指导

利用 Amazon CloudWatch 之类的工具执行指标分析。AWS Cost Anomaly Detection 和 Amazon DevOps Guru 之类的 AWS 服务可用于检测异常,尤其是在静态阈值未知,或行为模式更适合异常检测时。

实施步骤

  1. 分析和审查: 定期审查和解释您的工作负载指标。

    1. 优先考虑业务成果指标,而不是只考虑纯粹的技术指标。

    2. 了解数据中的高峰、低谷或模式的重要性。

  2. 利用 Amazon CloudWatch: 使用 Amazon CloudWatch 获得集中式视图并进行深入分析。

    1. 配置 CloudWatch 控制面板,以可视化形式呈现您的指标,并对一段时间内的指标进行比较。

    2. 使用 CloudWatch 中的百分位数 来清楚地了解指标分布,这有助于定义 SLA 和理解异常值。

    3. 设置 AWS Cost Anomaly Detection 在不依赖静态阈值的情况下识别异常模式。

    4. 实施 CloudWatch 跨账户可观测性 以监控跨区域内多个账户的应用程序并对其进行故障排除。

    5. 使用 CloudWatch Metric Insights 来查询和分析跨账户和地区的指标数据,从而识别趋势和异常情况。

    6. 应用 CloudWatch Metric Math 对您的指标进行转换、汇总或执行计算,从而获得更深入的见解。

  3. 应用 Amazon DevOps Guru: 纳入 Amazon DevOps Guru 以利用其机器学习增强的异常检测,来识别无服务器应用程序操作问题的早期迹象,并在它们影响客户之前将其修复。

  4. 根据见解进行优化: 根据您的指标分析做出明智的决策,以调整和改进您的工作负载。

实施计划的工作量级别:

资源

相关最佳实践:

相关文档:

相关视频:

相关示例: