イベントへの対応 - オペレーショナルエクセレンスの柱

イベントへの対応

計画内 (販売促進、デプロイ、障害テストなど) と計画外 (稼働率の急増やコンポーネントの障害など) の両方の運用イベントを予測する必要があります。アラート対応時に一貫した結果を提供する、既存のランブックとプレイブックを使用する必要があります。定義されたアラートは、応答とエスカレーションに責任を負う、ロールまたはチームが所有する必要があります。また、システムコンポーネントのビジネスへの影響を把握し、必要に応じてこれを活用して作業の的を絞ることもできます。イベント後に根本原因の分析 (RCA) を実行し、失敗の再発を防止したり、回避策を文書化したりする必要があります。

AWS は、ワークロードと運用のすべての側面をコードとしてサポートするツールを提供し、イベント対応を簡素化します。このようなツールを使用すると、運用イベントへの対応をスクリプト化し、モニタリングデータに対応して実行をトリガーできます。

AWS では、障害が発生したコンポーネントを修復するのではなく、既知の正常なバージョンに置き換えることで、復旧時間を短縮できます。その後、障害が発生したリソースの分析を帯域外で実行できます。