OPS11-BP02 インシデント後の分析を実行する - AWS Well-Architected Framework

OPS11-BP02 インシデント後の分析を実行する

顧客に影響を与えるイベントを確認し、寄与する要因と予防措置を特定します。この情報を使用して、再発を制限または回避するための緩和策を開発します。迅速で効果的な対応のための手順を開発します。対象者に合わせて調整された、寄与因子と是正措置を必要に応じて伝えます。

期待される成果:

  • インシデント後の分析を含むインシデント管理プロセスが確立されます。

  • イベントに関するデータを収集するためのオブザーバビリティ計画が整います。

  • このデータから、インシデント後の分析プロセスを支えるメトリクスを理解し、収集できます。

  • インシデントから学び、その後の成果の向上につなげることができます。

一般的なアンチパターン:

  • アプリケーションサーバーを管理しています。約 23 時間 55 分ごとに、すべてのアクティブなセッションが終了します。あなたは、アプリケーションサーバーで何が問題なのかを特定しようとしました。あなたは、これがネットワークの問題である可能性があることを疑っていますが、ネットワークチームが忙しすぎてサポートを提供できないため、当該チームから協力を得ることができません。あなたには、サポートを得て、何が起こっているかを判断するために必要な情報を収集するための事前定義されたプロセスがありません。

  • あなたは、ワークロード内でデータを失ってしまいました。このような問題が発生したのはこれが最初であり、原因は明らかではありません。あなたは、データを再作成できるため、これが重要ではないと判断しています。データ損失は、顧客に影響するほどの高い頻度で発生し始めます。また、これにより、失われたデータの復元に際して、追加の運用上の負担も発生します。

このベストプラクティスを活用するメリット:

  • インシデントの原因となったコンポーネント、条件、アクション、イベントを決定する事前定義されたプロセスを持つことで、改善の機会を把握できます。

  • インシデント後の分析のデータを改善に役立てます。

このベストプラクティスが確立されていない場合のリスクレベル:

実装のガイダンス

プロセスを使用して、寄与した要因を判断します。顧客に影響を与えるすべてのインシデントを確認します。インシデントに寄与した要因を特定してドキュメント化するためのプロセスを用意しておき、再発を抑制または防止する緩和策と、迅速で効果的な対応手順を展開できるようにしておきます。インシデントの根本原因を適宜伝達し、伝える相手に合わせて伝え方を調整します。教訓を組織内で広く共有します。

実装手順

  1. デプロイの変更、構成変更、インシデントの開始時刻、アラーム時刻、エンゲージメント時間、緩和開始時刻、インシデント解決時刻などのメトリクスを収集します。

  2. タイムライン上で重要な時点を特定し、インシデントの該当時点のイベントを把握します。

  3. 次の質問について検討します。

    1. 検出までの時間を短縮できますか?

    2. メトリクスとアラームについて、インシデントの検出を早めるための改善点はありますか?

    3. 診断までの時間を短縮できますか?

    4. 対応計画やエスカレーション計画について、適切な対応担当者をより早く関与させるための改善点はありますか?

    5. 緩和までの時間を短縮できますか?

    6. ランブックやプレイブックに追加または改善できる手順はありますか?

    7. 今後のインシデントの発生を防止できますか?

  4. チェックリストとアクションを作成します。すべてのアクションを追跡し、実行します。

実装計画に必要な工数レベル:

リソース

関連するベストプラクティス:

関連するドキュメント: