OPS08-BP01 分析工作负载指标
实施应用程序遥测后,定期分析收集的指标。虽然延迟、请求、错误和容量(或配额)有助于深入了解系统性能,但优先审查业务成果指标至关重要。这样可以确保您做出与业务目标相一致的数据驱动型决策。
期望的结果: 准确洞察工作负载性能,推动做出以数据为依据的决策,确保与业务目标相一致。
常见反模式:
-
孤立地分析指标,而不考虑其对业务成果的影响。
-
过度依赖技术指标,而不重视业务指标。
-
很少审查指标,错过了实时决策机会。
建立此最佳实践的好处:
-
进一步了解技术性能与业务成果之间的相互关系。
-
以实时数据为依据改善决策流程。
-
在问题影响业务结果之前主动找出和缓解问题。
未建立这种最佳实践的情况下暴露的风险等级: 中
实施指导
利用 Amazon CloudWatch 之类的工具执行指标分析。AWS Cost Anomaly Detection 和 Amazon DevOps Guru 之类的 AWS 服务可用于检测异常,尤其是在静态阈值未知,或行为模式更适合异常检测时。
实施步骤
-
分析和审查: 定期审查和解释您的工作负载指标。
-
优先考虑业务成果指标,而不是只考虑纯粹的技术指标。
-
了解数据中的高峰、低谷或模式的重要性。
-
-
利用 Amazon CloudWatch: 使用 Amazon CloudWatch 获得集中式视图并进行深入分析。
-
配置 CloudWatch 控制面板,以可视化形式呈现您的指标,并对一段时间内的指标进行比较。
-
使用 CloudWatch 中的百分位数
来清楚地了解指标分布,这有助于定义 SLA 和理解异常值。 -
设置 AWS Cost Anomaly Detection 在不依赖静态阈值的情况下识别异常模式。
-
实施 CloudWatch 跨账户可观测性 以监控跨区域内多个账户的应用程序并对其进行故障排除。
-
使用 CloudWatch Metric Insights 来查询和分析跨账户和地区的指标数据,从而识别趋势和异常情况。
-
应用 CloudWatch Metric Math 对您的指标进行转换、汇总或执行计算,从而获得更深入的见解。
-
-
应用 Amazon DevOps Guru: 纳入 Amazon DevOps Guru
以利用其机器学习增强的异常检测,来识别无服务器应用程序操作问题的早期迹象,并在它们影响客户之前将其修复。 -
根据见解进行优化: 根据您的指标分析做出明智的决策,以调整和改进您的工作负载。
实施计划的工作量级别: 中
资源
相关最佳实践:
相关文档:
相关视频:
相关示例: