インシデントマネージャーのインシデントライフサイクル - Incident Manager

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

インシデントマネージャーのインシデントライフサイクル

AWS Systems Manager Incident Manager提供するstep-by-stepサービスの停止やセキュリティ上の脅威などのインシデントを特定して対応するためのベストプラクティスに基づくフレームワーク インシデントマネージャーの主な焦点は、完全なインシデントライフサイクル管理ソリューションを通じて、影響を受けたサービスやアプリケーションを可能な限り迅速に通常の状態に戻すことです。

Incident Manager は、インシデントライフサイクルのすべてのフェーズにツールとベストプラクティスを提供します。


            このページで説明されているインシデントライフサイクルのイメージ。このサイクルは、アラートとエンゲージメントからトリアージ、調査、インシデント分析の後、アラートとエンゲージメントへと循環的に流れます。

アラートとエンゲージメント

インシデントライフサイクルのアラートとエンゲージメントのフェーズでは、アプリケーションやサービス内のインシデントを認識してもらうことに重点を置いています。このフェーズは、インシデントが検出される前に開始され、アプリケーションを深く理解する必要があります。アマゾンを使えますCloudWatchアプリケーションのパフォーマンスに関するデータを監視するためのメトリックを使用できますアマゾンCloudWatchメトリックスアプリケーションのパフォーマンスに関するデータを監視したり、活用したりするためアマゾンEventBridgeさまざまなソース、アプリケーション、サービスからのアラートを集約します。アプリケーションの監視を設定したら、過去の基準から外れたメトリックに関するアラートを開始できます。モニタリングのベストプラクティスの詳細については、以下を参照してください。モニタリング

アプリケーションのインシデントをモニタリングしているので、インシデントの際に使用するインシデント 対応計画 を定義できます。対応計画の作成の詳細については、「インシデントマネージャーでの対応計画の処理」を参照してください。アマゾンEventBridgeイベントまたはCloudWatchアラームでは、WITH Response Planをテンプレートとして使用して自動的にインシデントを作成できます。インシデントの作成の詳細については、「インシデントマネージャーでのインシデントの作成」を参照してください。

対応計画では、関連する エスカレーション計画 および最初の応答者をインシデントに参加させるための エンゲージメント計画 を開始します。エスカレーションプランの設定の詳細については、エスカレーション計画を作成する を参照してください。同時に、AWS Chatbot はチャットチャネルを使用して、インシデントの詳細ページを応答者に通知します。チャットチャネルと インシデントの詳細を使用すると、チームはインシデントを通信し、トリアージすることができます。Incident Manager でのチャットチャネルのセットアップの詳細については、「タスク 2: チャットチャネルを作成するAWS Chatbot」を参照してください。

トリアージ

トリアージとは、最初の応答者が顧客への影響を判断しようとする場合です。インシデントマネージャーコンソールのインシデント詳細ビューには、対応者にインシデントの評価に役立つタイムラインとメトリックが表示されます。インシデントの影響を評価することは、インシデントの対応時間、解決、コミュニケーションの基礎にもなります。対応者は、1(重大)から5(影響なし)までの影響評価を使用してインシデントに優先順位を付けます。

組織は各影響評価の正確な範囲を自由に定義できます。次の表は、各影響レベルの一般的な定義方法の例を示しています。

インパクトコード インパクト名 サンプル定義スコープ
1 Critical

ほとんどのお客様に影響するアプリケーション全体の障害。

2 High

一部のお客様に影響するアプリケーション全体の障害。

3 Medium

お客様に影響する部分的なアプリケーション障害。

4 Low

断続的に発生する障害で、お客様への影響は限定的です。

5 No Impact

顧客は現在影響を受けていませんが、影響を回避するには緊急の対策が必要です。

調査と緩和

インシデント 詳細ビューでは、チームに Runbook、タイムライン、およびメトリクスが提供されます。インシデントの取り扱い方法については、「インシデントの詳細」を参照してください。

Runbooks 一般的に調査ステップを提供し、データを自動的に取得したり、一般的に使用されるソリューションを試すことができます。Runbooks は、チームがインシデントの緩和に役立つと判断した、明確で反復可能なステップも提供します。Runbook タブは現在の Runbook ステップに焦点を当て、過去と将来のステップを表示します。

Incident Manager は、Systems Manager 自動化と統合して Runbook を構築します。Runbook を使用して、以下のいずれかを実行します。

  • インスタンスと AWS リソースの管理

  • スクリプトの自動実行

  • AWS CloudFormation リソースの管理

サポートされているアクションタイプの詳細については、を参照してください。システムマネージャー自動化アクションリファレンスAWS Systems Managerユーザーガイド

ザ・タイムラインタブには、実行されたアクションが表示されます。タイムラインには、タイムスタンプと自動的に作成された詳細が記録されます。タイムラインにカスタムイベントを追加するには、このユーザーガイドの インシデントの詳細 ページの タイムライン セクションを 参照してください。

ザ・指標タブには、自動入力された指標と手動で追加された指標が表示されます。このビューは、インシデント中のアプリケーションのアクティビティに関する貴重な情報を提供します。

ザ・エンゲージメントタブでは、インシデントに連絡先を追加したり、担当者がインシデントに巻き込まれたらすぐに情報を把握できるようにリソースを提供したりすることができます。連絡先は、定義されたエスカレーションプランまたはパーソナルエンゲージメントプランを通じてエンゲージメントされます。

を使用するチャットチャネル、インシデントやチームの他の対応者と直接やり取りできます。、使用するAWS Chatbot、でチャットチャネルを設定できます。スラック、マイクロソフト・チームズ、アマゾン・チャイム SlackやMicrosoft Teamsのチャネルでは、対応者はさまざまな方法でチャットチャネルから直接インシデントとやり取りできます。ssm-incidentsコマンド。詳細については、「チャットチャネルを通じたやりとり」を参照してください。

インシデント後分析

インシデントマネージャーは、インシデントを振り返り、今後インシデントが再発しないように必要な措置を講じ、インシデント対応活動全体を改善するためのフレームワークを提供します。改善には以下が含まれます。

  • インシデントに関連したアプリケーションの変更。チームはこの時間を使用してシステムを改善し、耐障害性を高めることができます。

  • インシデント対応計画への変更。時間をかけて学んだ教訓を取り入れます。

  • ランブックの変更。チームは、解決に必要なステップと、自動化できるステップについて深く掘り下げることができます。

  • アラートの変更。インシデント後、チームはインシデントについてより早くチームに警告するために使用できるメトリクスのクリティカルポイントに気づくことができます。

Incident Manager は、インシデントタイムラインと並んでインシデント分析の質問とアクション項目を使用して、これらの潜在的な改善を容易にします。分析による改善の詳細については、「Incident Manager でのインシデント後分析の実行」を参照してください。