PERF05-BP07 メトリクスを定期的に見直す
定期的なメンテナンスの一環として、またはイベントやインシデントに応じて、収集対象のメトリクスを見直します。この見直しを通じて、どのメトリクスが問題対応の鍵となったか、またどのメトリクスを追加で追跡すると問題の特定、対応、防止に役立つと思われるかを特定します。
一般的なアンチパターン:
-
メトリクスを長期間アラーム状態のままにする。
-
自動システムによって実行できないアラームを作成する。
このベストプラクティスを活用するメリット: 収集されているメトリクスを継続的に見直し、問題について適切に識別、対応、または防止します。また、メトリクスは、長期間アラーム状態のままとなった場合にも、陳腐化することがあります。
このベストプラクティスを活用しない場合のリスクレベル: 中
実装のガイダンス
メトリクスの収集とモニタリングを継続的に改善します。インシデントやイベントへの対応の一環として、問題解決に役立ったメトリクスと、問題解決に役立った可能性があるものの、現在は追跡されていないメトリクスを評価します。この方法を使用して収集するメトリクスの品質を高め、今後のインシデントを防止、またはより迅速に解決できるようにします。
インシデントやイベントへの対応の一環として、問題解決に役立ったメトリクスと、問題解決に役立った可能性があるものの、現在は追跡されていないメトリクスを評価します。これを使用して、収集するメトリクスの品質を高め、今後のインシデントを防止、またはより迅速に解決できるようにします。
実装手順
-
ワークロードの目標に合わせて、モニタリングする重要なパフォーマンスメトリクスを定義します。
-
各メトリクスのベースラインと目標値を設定します。
-
重要なメトリクスをレビューする頻度 (毎週、毎月など) を設定します。
-
各レビューでは、傾向とベースライン値からの偏差を評価します。パフォーマンスのボトルネックや異常がないか調べます。
-
特定された問題については、詳細な根本原因分析を実施して、問題の背後にある主な理由を把握します。
-
調査結果を文書化し、戦略を使用して特定された問題やボトルネックに対処します。
-
メトリクスレビュープロセスを継続的に評価し、改善します。
リソース
関連するドキュメント:
関連動画:
関連する例: