OPS10-BP02 アラートごとにプロセスを用意する - 運用上の優秀性の柱

OPS10-BP02 アラートごとにプロセスを用意する

効果的かつ効率的なインシデント管理においては、システム内のアラートごとに明確なプロセスを定義しておくことが重要です。そうすることで、すべてのアラートに対して具体的な対応をすぐに行動に移すことができ、運用の信頼性と応答性が向上します。

期待される成果: すべてのアラートに対して、明確に定義された具体的な対応計画が実践に移されます。可能な場合は、所有権を明確にし、エスカレーション経路を定義して、対応を自動化します。アラートは最新のナレッジベースにリンクされているため、どのオペレーターでも一貫して効果的に対応できます。対応が全体的に迅速で一貫しており、運用の効率と信頼性が向上します。

一般的なアンチパターン:

  • アラートに対応プロセスが事前定義されていないため、その場しのぎの対応や解決の遅れにつながる。

  • アラート過多になり、重要なアラートが見過ごされる。

  • アラートの所有権と責任が明確でないため、アラートの処理に一貫性がない。

このベストプラクティスを活用するメリット:

  • 対処可能なアラートのみを発生させることで、アラート疲労が軽減されます。

  • 運用上の問題の平均解決時間 (MTTR) が短縮されます。

  • 平均調査時間 (MTTI) が短縮され、MTTR の短縮につながります。

  • 運用上の対応のスケーラビリティが向上します。

  • 運用イベント処理の一貫性と信頼性が向上します。

このベストプラクティスを活用しない場合のリスクレベル:

実装のガイダンス

アラートごとにプロセスを用意するには、各アラートに対して明確な対応計画を策定し、可能な場合は対応を自動化します。また、運用上のフィードバックや変化する要件に基づいて、これらのプロセスを継続的に改善していきます。

実装手順

次の図は、 AWS Systems Manager Incident Manager 内のインシデント管理ワークフローを示しています。これは、 Amazon CloudWatch または Amazon EventBridge からの特定のイベントに応じて自動的にインシデントを作成することで、運用上の問題に迅速に対応できるように設計されています。インシデントが自動または手動で作成されると、Incident Manager がインシデントの管理を一元化し、関連する AWS リソース情報を整理し、事前定義されている対応計画を実践に移します。例えば、即時対応のために Systems Manager オートメーションランブックを実行したり、関連するタスクや分析を追跡するための親の運用作業項目を OpsCenter で作成したりします。この合理化されたプロセスにより、AWS 環境全体でインシデント対応が迅速化され、調整されます。

Incident Manager の仕組みを示したフローチャート。AWS Chatbot、エスカレーション計画と連絡先、ランブックが対応計画へと流れ、対応計画がインシデントと分析に流れています。Amazon CloudWatch も対応計画へと流れます。

  1. 複合アラームを使用する: CloudWatch で 複合アラーム を作成し、関連するアラームをグループ化します。ノイズが減り、より有意義な対応が可能になります。

  2. Amazon CloudWatch アラームを Incident Manager と統合する: CloudWatch アラームを設定して、 AWS Systems Manager Incident Manager でインシデントを自動的に作成します。

  3. Amazon EventBridge を Incident Manager と統合する: 定義済みの対応計画にそってイベントに対応し、インシデントを作成する EventBridge ルール を作成します。

  4. Incident Manager でインシデントに備える:

    • アラートの種類ごとに、詳細な 対応計画 を Incident Manager で策定します。

    • チャットチャネルを AWS Chatbot を通じて確立します。このチャネルは Incident Manager の対応計画に接続され、インシデント発生時の Slack 、Microsoft Teams、Amazon Chime などのプラットフォーム間でのリアルタイムコミュニケーションを促進します。

    • Incident Manager 内で Systems Manager オートメーションランブック を統合し、インシデントへの自動対応を実現します。

リソース

関連するベストプラクティス:

関連するドキュメント:

関連動画:

関連する例: