OPS08-BP01 分析工作负载指标 - AWS Well-Architected 框架

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

OPS08-BP01 分析工作负载指标

实施应用程序遥测后,定期分析收集的指标。虽然延迟、请求、错误和容量(或配额)有助于深入了解系统性能,但优先审查业务成果指标至关重要。这样可以确保作出与业务目标相一致的数据驱动型决策。

期望结果:准确洞察工作负载性能,推动作出以数据为依据的决策,确保与业务目标相一致。

常见反模式:

  • 孤立地分析指标,而不考虑其对业务成果的影响。

  • 过度依赖技术指标,而不重视业务指标。

  • 很少审查指标,错过了实时决策机会。

建立此最佳实践的好处:

  • 进一步了解技术性能与业务成果之间的相互关系。

  • 以实时数据为依据改善决策流程。

  • 在问题影响业务成果之前主动发现和缓解问题。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

利用诸如 Amazon CloudWatch 之类的工具进行指标分析。 AWS 诸如 CloudWatch 异常检测和 Amazon DevOps Guru 之类的服务可用于检测异常,尤其是在静态阈值未知或行为模式更适合异常检测时。

实施步骤

  1. 分析和审查:定期审查和解读工作负载指标。

    1. 优先考虑业务成果指标,而不是只考虑纯粹的技术指标。

    2. 了解数据中高峰、低谷或模式的重要性。

  2. 利用亚马逊 CloudWatch:使用亚马逊 CloudWatch 进行集中视图和深入分析。

    1. 配置 CloudWatch 仪表板以可视化您的指标并随着时间的推移进行比较。

    2. 使用百分位数可以清楚 CloudWatch地了解指标分布,这有助于定义SLAs和理解异常值。

    3. 设置CloudWatch 异常检测以识别异常模式,无需依赖静态阈值。

    4. 实现CloudWatch 跨账户可观察性,以监控跨区域内多个账户的应用程序并对其进行故障排除。

    5. 使用 M CloudWatch etric Insights 查询和分析跨账户和地区的指标数据,识别趋势和异常情况。

    6. 应用CloudWatch 指标数学对指标进行转换、汇总或计算,以获得更深入的见解。

  3. 使用 Amazon DevOps Guru:使用 Amazon DevOps Guru 进行机器学习增强的异常检测,以识别无服务器应用程序操作问题的早期迹象,并在它们影响客户之前对其进行补救。

  4. 根据洞察进行优化:根据指标分析作出明智的决策,以便调整和改进工作负载。

实施计划的工作量级别:

资源

相关最佳实践:

相关文档:

相关视频:

相关示例: