PERF05-BP07 定期检查指标 - AWS Well-Architected Framework

PERF05-BP07 定期检查指标

作为例行维护的一部分或为了应对事件或意外事件,请检查收集到了哪些指标。通过这些检查,找出哪些指标对于解决问题至关重要,以及跟踪哪些其他指标会有助于发现、解决或预防问题。

常见反模式:

  • 您让指标保持警报状态较长时间。

  • 您创建自动化系统无法操作的警报。

建立此最佳实践的好处: 不断检查收集的指标,以确认它们能够帮助正确地发现、解决问题或预防问题发生。如果您让指标保持警报状态过长时间,这些指标也会过时。

未建立这种最佳实践的情况下暴露的风险等级:

实施指导

不断改进指标收集和监控。在响应意外事件或事件的过程中,评估哪些指标有助于解决问题、哪些目前没有跟踪的指标会有助于解决问题。通过这种方法,您可以提高收集的指标的质量,从而预防或更快速地解决未来发生的意外事件。

在响应意外事件或事件的过程中,评估哪些指标有助于解决问题、哪些目前没有跟踪的指标会有助于解决问题。这样,您可以提高收集的指标的质量,从而预防或更快速地解决未来发生的意外事件。

实施步骤

  1. 根据您的工作负载目标,定义要监控的关键性能指标。

  2. 为每个指标设置基准和期望值。

  3. 建立定期机制(例如每周或每月)来审核关键指标。

  4. 在每次审核期间,评测趋势以及与基准值的偏差。找出任何性能瓶颈或异常情况。

  5. 对于已发现的问题,开展深入的根本原因分析,了解问题背后的主要原因。

  6. 记录您的调查发现,使用策略来处理已发现的问题和瓶颈。

  7. 持续评测和改进指标审核流程。

资源

相关文档:

相关视频:

相关示例: