OPS04-BP02 实施应用程序遥测 - 卓越运营支柱

OPS04-BP02 实施应用程序遥测

应用程序遥测是实现工作负载可观测性的基础。发射遥测数据至关重要,它可以提供切实可行的见解,让您了解应用程序的状态以及技术和业务成果的实现情况。从故障排除到衡量新功能的影响或确保与业务关键绩效指标(KPI)保持一致,应用程序遥测可为您构建、操作和演进工作负载的方式提供指导。

指标、日志和跟踪数据构成了可观测性的三个主要支柱。它们用作诊断工具来描述应用程序状态。随着时间的推移,它们会协助创建基线和识别异常情况。但是,为了确保监控活动与业务目标协调一致,定义和监控 KPI 至关重要。与只考虑纯粹的技术指标相比,业务 KPI 通常有助于更轻松地识别问题。

其他遥测类型,例如真实用户监控(RUM)和综合事务,是对这些主要数据源的补充。RUM 让您可以了解实时用户交互,而综合事务则模拟潜在的用户行为,有助于提前发现瓶颈,以防真实用户遇到瓶颈。

期望结果:获得有关工作负载性能的可操作见解。这些见解使您能够主动作出性能优化决策,提高工作负载稳定性,简化 CI/CD 流程,并有效地利用资源。

常见反面模式:

  • 可观测性不完整:忽略将可观测性纳入工作负载的每一层,造成盲点,从而掩盖重要的系统性能和行为洞察。

  • 支离破碎的数据视图:当数据分散在多个工具和系统中时,要全面了解工作负载的运行状况和性能,会非常困难。

  • 用户报告的问题:这表明缺乏通过遥测和业务 KPI 监控来主动发现问题的功能。

建立此最佳实践的好处:

  • 明智的决策:借助从遥测和业务 KPI 中获得的见解,您可以作出以数据为导向的决策。

  • 提高运营效率:以数据为驱动来利用资源,可提高成本效益。

  • 增强工作负载稳定性:更快地检测和解决问题,延长正常运行时间。

  • 简化 CI/CD 流程:从遥测数据获得的见解有助于完善流程和可靠地交付代码。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

要为您的工作负载实现应用程序遥测,请使用 AWS 服务,例如 Amazon CloudWatchAWS X-Ray。Amazon CloudWatch 提供了一套全面的监控工具,让您能够观察 AWS 和本地环境中的资源和应用程序。该服务会收集、跟踪和分析指标,整合和监控日志数据,并对资源的变化做出响应,从而增进您对工作负载运行方式的了解。同时,利用 AWS X-Ray,您还可以跟踪、分析和调试应用程序,从而深入了解工作负载的行为。借助服务地图、延迟分布和跟踪时间表等功能,AWS X-Ray 可让您深入了解工作负载的性能和影响工作负载性能的瓶颈。

实施步骤

  1. 确定要收集哪些数据:确定有助于您深入了解工作负载的运行状况、性能和行为的基本指标、日志和跟踪数据。

  2. 部署 CloudWatch 代理CloudWatch 代理在从您的工作负载及其底层基础设施中获取系统和应用程序指标和日志方面发挥着重要作用。该 CloudWatch 代理还可用于收集 OpenTelemetry 或 X-Ray 跟踪数据,并将其发送到 X-Ray。

  3. 对日志和指标实施异常检测:使用 CloudWatch Logs 异常检测CloudWatch 指标异常检测自动识别应用程序操作中的异常活动。这些工具使用机器学习算法来检测异常情况并发出警报,从而增强了监控能力,加快了对潜在中断或安全威胁的响应速度。设置这些功能可主动管理应用程序的运行状况和安全性。

  4. 保护敏感日志数据:使用 Amazon CloudWatch Logs 数据保护来掩蔽日志中的敏感信息。此功能会在访问敏感数据之前自动检测和掩蔽敏感数据,有助于维护隐私和合规性。实施数据掩蔽,以期安全地处理和保护敏感详细信息,如个人身份信息(PII)。

  5. 定义和监控业务 KPI:建立与业务成果相一致的自定义指标

  6. 使用 AWS X-Ray 检测应用程序:除了部署 CloudWatch 代理外,还必须检测应用程序,以便发出跟踪数据。此过程可让您进一步了解工作负载的行为和性能。

  7. 在整个应用程序中实现数据收集标准化:在整个应用程序中实现数据收集实践的标准化。统一性有助于关联和分析数据,从而全面了解应用程序的行为。

  8. 实现跨账户可观测性:利用 Amazon CloudWatch 跨账户可观测性提高跨多个 AWS 账户的监控效率。利用该功能,您可以将不同账户中的指标、日志和警报整合到一个视图中,从而简化管理,并提高对整个组织的 AWS 环境中已发现问题的响应速度。

  9. 分析数据并据此采取行动:数据收集和规范化完成后,使用 Amazon CloudWatch 进行指标和日志分析,使用 AWS X-Ray 进行跟踪分析。此类分析可得出有关您的工作负载的运行状况、性能和行为的重要见解,从而指导您的决策过程。

实施计划的工作量级别:

资源

相关最佳实践:

相关文档:

相关视频:

相关示例: