OPS10-BP02 アラートごとにプロセスを用意する
効果的かつ効率的なインシデント管理においては、システム内のアラートごとに明確なプロセスを定義しておくことが重要です。そうすることで、すべてのアラートに対して具体的な対応をすぐに行動に移すことができ、運用の信頼性と応答性が向上します。
期待される成果: すべてのアラートに対して、明確に定義された具体的な対応計画が実践に移されます。可能な場合は、所有権を明確にし、エスカレーション経路を定義して、対応を自動化します。アラートは最新のナレッジベースにリンクされているため、どのオペレーターでも一貫して効果的に対応できます。対応が全体的に迅速で一貫しており、運用の効率と信頼性が向上します。
一般的なアンチパターン:
-
アラートに対応プロセスが事前定義されていないため、その場しのぎの対応や解決の遅れにつながる。
-
アラート過多になり、重要なアラートが見過ごされる。
-
アラートの所有権と責任が明確でないため、アラートの処理に一貫性がない。
このベストプラクティスを活用するメリット:
-
対処可能なアラートのみを発生させることで、アラート疲労が軽減されます。
-
運用上の問題の平均解決時間 (MTTR) が短縮されます。
-
平均調査時間 (MTTI) が短縮され、MTTR の短縮につながります。
-
運用上の対応のスケーラビリティが向上します。
-
運用イベント処理の一貫性と信頼性が向上します。
このベストプラクティスを活用しない場合のリスクレベル: 高
実装のガイダンス
アラートごとにプロセスを用意するには、各アラートに対して明確な対応計画を策定し、可能な場合は対応を自動化します。また、運用上のフィードバックや変化する要件に基づいて、これらのプロセスを継続的に改善していきます。
実装手順
次の図は、 AWS Systems Manager Incident Manager
![Incident Manager の仕組みを示したフローチャート。AWS Chatbot、エスカレーション計画と連絡先、ランブックが対応計画へと流れ、対応計画がインシデントと分析に流れています。Amazon CloudWatch も対応計画へと流れます。](images/incident-manager-how-it-works.png)
-
複合アラームを使用する: CloudWatch で 複合アラーム を作成し、関連するアラームをグループ化します。ノイズが減り、より有意義な対応が可能になります。
-
Amazon CloudWatch アラームを Incident Manager と統合する: CloudWatch アラームを設定して、 AWS Systems Manager Incident Manager でインシデントを自動的に作成します。
-
Amazon EventBridge を Incident Manager と統合する: 定義済みの対応計画にそってイベントに対応し、インシデントを作成する EventBridge ルール を作成します。
-
Incident Manager でインシデントに備える:
-
アラートの種類ごとに、詳細な 対応計画 を Incident Manager で策定します。
-
チャットチャネルを AWS Chatbot を通じて確立します。このチャネルは Incident Manager の対応計画に接続され、インシデント発生時の Slack 、Microsoft Teams、Amazon Chime などのプラットフォーム間でのリアルタイムコミュニケーションを促進します。
-
Incident Manager 内で Systems Manager オートメーションランブック を統合し、インシデントへの自動対応を実現します。
-
リソース
関連するベストプラクティス:
関連するドキュメント:
関連動画:
関連する例: