OPS08-BP04 実践的なアラートを作成する - AWS Well-Architected Framework

OPS08-BP04 実践的なアラートを作成する

アプリケーションの動作の逸脱を迅速に検出して対応することが重要です。特に重要なのは、主要業績評価指標 (KPI) に基づく成果がリスクにさらされている場合や、予期しない異常が発生した場合を認識することです。KPI に基づいてアラートを送信することで、受信される警告が直接的に業務や運用上の影響と関連付けられるようになります。実践的なアラートに関するこのようなアプローチを採用すると、積極的な対応の促進とシステムのパフォーマンスと信頼性の維持につながります。

期待される成果: 特に KPI の結果がリスクにさらされている場合に、潜在的な問題を迅速に特定して緩和するために、関連性が高く、実践的なアラートをタイムリーに受信できます。

一般的なアンチパターン:

  • 重大ではないアラートを多数設定しすぎて、アラート疲れを引き起こしている。

  • アラートに KPI に基づく優先順位付けを行っていないため、問題が業務に及ぼす影響を把握できにくくなっている。

  • 根本原因への対処を怠っているため、同じ問題について繰り返しアラートが送信される。

このベストプラクティスを活用するメリット:

  • 実践的で関連性の高いアラートに重点を置くことで、アラート疲労を軽減します。

  • 問題を事前に検出して軽減することで、システムの稼働時間と信頼性が向上します。

  • 一般的なアラートツールやコミュニケーションツールと統合することで、チームのコラボレーションを強化し、問題を迅速に解決できます。

このベストプラクティスが確立されていない場合のリスクレベル:

実装のガイダンス

効果的なアラートメカニズムを構築するには、KPI に基づく結果がリスクにさらされている場合や異常が検出された場合にフラグを立てるメトリクス、ログ、トレースデータを使用することが重要です。

実装手順

  1. 主要業績評価指標 (KPI) の決定: アプリケーションの KPI を特定します。正確に業務への影響を反映するには、アラートをこのような KPI に関連付ける必要があります。

  2. 異常検出の実装:

    • Amazon CloudWatch 異常検出の使用: Amazon CloudWatch 異常検出を設定して、異常なパターンを自動的に検出するようにすると、正当な異常に対してのみアラートが生成されるようになります。

    • AWS X-Ray Insights の使用:

      1. X-Ray Insights を設定して、トレースデータの異常を検出します。

      2. 問題が検出されたときにアラートを受け取るようにX-Ray Insights の通知を設定します。

    • Amazon DevOps Guru との統合:

      1. Amazon DevOps Guru の機械学習機能を活用して、既存のデータの運用上の異常を検出します。

      2. DevOps Guru の通知設定に移動して、異常アラートを設定します。

  3. 実用的なアラートの実装: すぐに行動を起こすための適切な情報を提供するアラートを設計します。

    1. Amazon EventBridge ルールを使用して AWS Health イベントをモニタリングしたり、プログラムで AWS Health API と統合して AWS Health イベントを受信したときのアクションを自動化したりできます。これらのアクションには、計画されたすべてのライフサイクルイベントメッセージをチャットインターフェイスに送信するなどの一般的なアクションや、IT サービス管理ツールでのワークフローの開始などの特定のアクションがあります。

  4. アラート疲労の軽減: 重要でないアラートを最小限に抑えます。多数の重要でないアラートによりチームに負担がかかると、重大な問題の見落としにつながり、アラートメカニズムの全体的な有効性が低下する場合があります。

  5. 複合アラームの設定: Amazon CloudWatch 複合アラームを使用して複数のアラームを統合します。

  6. アラートツールとの統合: Ops GeniePagerDuty などのツールを組み込みます。

  7. AWS Chatbot との統合: AWS Chatbot を統合して、Amazon Chime、Microsoft Teams、Slack にアラートを転送します。

  8. ログに基づくアラート: CloudWatch でログメトリクスフィルターを使用して、特定のログイベントに基づいてアラームを生成します。

  9. 確認と反復: アラート設定を定期的に見直し、調整します。

実装計画に必要な工数レベル:

リソース

関連するベストプラクティス:

関連するドキュメント:

関連動画:

関連する例: