イベントへの対応 - 運用上の優秀性の柱

イベントへの対応

計画 (販売促進、デプロイメント、障害テストなど) と計画外 (稼働率の急増やコンポーネントの障害など) の両方の運用イベントを予測する必要があります。既存のランブックとプレイブックを使用して、アラートに対応するときに一貫した結果を提供する必要があります。定義されたアラートは、応答とエスカレーションに責任を負う役割またはチームが所有する必要があります。また、システムコンポーネントのビジネスへの影響を把握し、必要に応じてこれを活用して作業の的を絞ることもできます。イベントの後に根本原因の分析 (RCA) を実行し、失敗の再発を防止したり、回避策を文書化したりする必要があります。

AWS は、ワークロードと運用のすべての側面をコードとしてサポートするツールを提供することで、イベント対応を簡素化します。このようなツールを使用すると、運用イベントへの対応をスクリプト化し、モニタリングデータに対応して実行をトリガーできます。

AWS では、障害が発生したコンポーネントを修復しようとするよりも、既知の正常なバージョンに置き換えることで、復旧時間を短縮できます。その後、障害が発生したリソースの分析を実行できます。