PERF05-BP07 定期检查指标
作为例行维护的一部分或为了应对事件或意外事件,请检查收集到了哪些指标。通过这些检查,找出哪些指标对于解决问题至关重要,以及跟踪哪些其他指标会有助于发现、解决或预防问题。
常见反模式:
-
您让指标保持警报状态较长时间。
-
您创建自动化系统无法操作的警报。
建立此最佳实践的好处: 不断检查收集的指标,以确认它们能够帮助正确地发现、解决问题或预防问题发生。如果您让指标保持警报状态过长时间,这些指标也会过时。
未建立这种最佳实践的情况下暴露的风险等级: 中
实施指导
不断改进指标收集和监控。在响应意外事件或事件的过程中,评估哪些指标有助于解决问题、哪些目前没有跟踪的指标会有助于解决问题。通过这种方法,您可以提高收集的指标的质量,从而预防或更快速地解决未来发生的意外事件。
在响应意外事件或事件的过程中,评估哪些指标有助于解决问题、哪些目前没有跟踪的指标会有助于解决问题。这样,您可以提高收集的指标的质量,从而预防或更快速地解决未来发生的意外事件。
实施步骤
-
根据您的工作负载目标,定义要监控的关键性能指标。
-
为每个指标设置基准和期望值。
-
建立定期机制(例如每周或每月)来审核关键指标。
-
在每次审核期间,评测趋势以及与基准值的偏差。找出任何性能瓶颈或异常情况。
-
对于已发现的问题,开展深入的根本原因分析,了解问题背后的主要原因。
-
记录您的调查发现,使用策略来处理已发现的问题和瓶颈。
-
持续评测和改进指标审核流程。
资源
相关文档:
相关视频:
相关示例: