OPS08-BP04 実践的なアラートを作成する - AWS Well-Architected Framework

OPS08-BP04 実践的なアラートを作成する

アプリケーションの動作の逸脱を迅速に検出して対応することが重要です。特に重要なのは、主要業績評価指標 (KPI) に基づく成果がリスクにさらされている場合や、予期しない異常が発生した場合を認識することです。KPI に基づいてアラートを送信することで、受信される警告が直接的に業務や運用上の影響と関連付けられるようになります。実践的なアラートに関するこのようなアプローチを採用すると、積極的な対応の促進とシステムのパフォーマンスと信頼性の維持につながります。

期待される成果: 特に KPI の結果がリスクにさらされている場合に、潜在的な問題を迅速に特定して緩和するために、関連性が高く、実践的なアラートをタイムリーに受信できます。

一般的なアンチパターン:

  • 重大ではないアラートを多数設定しすぎて、アラート疲れを引き起こしている。

  • アラートに KPI に基づく優先順位付けを行っていないため、問題が業務に及ぼす影響を把握できにくくなっている。

  • 根本原因への対処を怠っているため、同じ問題について繰り返しアラートが送信される。

このベストプラクティスを活用するメリット:

  • 実践的で関連性の高いアラートに重点を置くことで、アラート疲労を軽減します。

  • 問題を事前に検出して軽減することで、システムの稼働時間と信頼性が向上します。

  • 一般的なアラートツールやコミュニケーションツールと統合することで、チームのコラボレーションを強化し、問題を迅速に解決できます。

このベストプラクティスを活用しない場合のリスクレベル:

実装のガイダンス

効果的なアラートメカニズムを構築するには、KPI に基づく結果がリスクにさらされている場合や異常が検出された場合にフラグを立てるメトリクス、ログ、トレースデータを使用することが重要です。

実装手順

  1. 主要業績評価指標 (KPI) を定義します。 アプリケーションの KPI を特定します。正確に業務への影響を反映するには、アラートをこのような KPI に関連付ける必要があります。

  2. 異常検出の実装:

  3. 実践的なアラートの実装: すぐに行動に移せるように、適切な情報を提供するアラートを設計します。

  4. アラーム疲労の軽減: 重大ではないアラートは最小限に抑えます。多数の重要でないアラートによりチームに負担がかかると、重大な問題の見落としにつながり、アラートメカニズムの全体的な有効性が低下する場合があります。

  5. 複合アラームの設定: Amazon CloudWatch の複合アラームを使用して、 複数のアラームを統合します。

  6. アラートツールとの統合: Ops GeniePagerDutyなどのツールと統合します。

  7. Amazon Q Developer in chat applications との連携: Amazon Q Developer in chat applicationsと統合して、Chime、Microsoft Teams、Slack にアラートを中継します。

  8. ログに基づくアラート: https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html CloudWatch ログのメトリクスフィルターを使用して、特定のログイベントに基づくアラームを作成します。

  9. レビューと反復: アラート設定を定期的に見直して調整します。

実装計画に必要な工数レベル: 中程度

リソース

関連するベストプラクティス:

関連するドキュメント:

関連動画:

関連する例: