REL06-BP04 レスポンスを自動化する (リアルタイム処理とアラーム) - 信頼性の柱

REL06-BP04 レスポンスを自動化する (リアルタイム処理とアラーム)

自動化を使用して、イベントが検出されたときにアクションを実行します (例えば、障害が発生したコンポーネントを交換します)。

アラームの自動リアルタイム処理が実装されているため、アラームがトリガーされたときにシステムが迅速に是正措置を講じ、障害やサービスの低下を防ぐことができます。アラームへの自動対応には、障害が起きたコンポーネントの交換、コンピューティングキャパシティの調整、正常なホスト、アベイラビリティーゾーン、その他のリージョンへのトラフィックのリダイレクト、オペレーターへの通知などがあります。

期待される成果: リアルタイムのアラームが特定され、アラームの自動処理が設定され、サービスレベル目標とサービスレベルアグリーメント (SLA) を達成するための適切なアクションが呼び出されます。自動処理は、単一コンポーネントの自己修復アクティビティからサイト全体のフェイルオーバーまで多岐にわたります。

一般的なアンチパターン:

  • 主要なリアルタイムアラームの明確なインベントリまたはカタログがない。

  • 重大なアラームへの自動対応 (例えば、コンピューティングが枯渇しそうになると、オートスケーリングが行われる) が欠如している。

  • アラームへの対応が矛盾している。

  • オペレーターがアラート通知を受け取ったときに従うべき標準作業手順書 (SOP) がない。

  • 構成変更がモニタリングされていない。構成変更が検出されないと、ワークロードのダウンタイムが生じる可能性があります。

  • 意図しない構成変更を取り消す戦略がない。

このベストプラクティスを活用するメリット: アラーム処理を自動化することで、システムの回復力を向上させることができます。システムが自動的に是正措置を講じるため、人が介入することでミスが生じやすい手作業を減らすことができます。ワークロードの可用性の目標を達成し、サービスの中断を低減します。

このベストプラクティスを活用しない場合のリスクレベル:

実装のガイダンス

アラートを効果的に管理し、対応を自動化するには、重要度と影響に基づいてアラートを分類し、対応手順を文書化し、対応計画を立ててからタスクをランク付けします。

特定のアクション (たいていはランブックに詳細が記載されている) が必要なタスクを特定し、ランブックとプレイブックをすべて調べて、どのタスクを自動化できるか判断します。アクションを定義できる場合、たいていは自動化できます。アクションを自動化できない場合は、手作業による手順を SOP に記録し、オペレーターにその手順の訓練をします。手作業のプロセスは継続的に見直し、アラートへの対応を自動化する計画を立て、実践できる余地がないか検討してください。

実装手順

  1. アラームのインベントリを作成する: すべてのアラームのリストを取得するには、Amazon CloudWatch コマンド describe-alarms を使用して AWS CLI を使用できます。設定したアラームの数によっては、ページ分割を使用して各呼び出しのアラームのサブセットを取得するか、または AWS SDK を使用して API コールを使用してアラームを取得できます。

  2. すべてのアラームアクションを文書化する: 手動か自動かにかかわらず、すべてのアラームとそのアクションでランブックを更新します。AWS Systems Manager には、定義済みのランブックが用意されています。詳細については、「ランブックの使用」を参照してください。ランブックコンテンツを表示する方法の詳細については、「View runbook content」を参照してください。

  3. アラームアクションを設定して管理する: アクションが必要なアラームについては、CloudWatch SDK を使用して自動アクションを指定します。例えば、アラームに応じてアクションを作成して有効にする、またはアラームに応じてアクションを無効にする形で、CloudWatch アラームに基づいて Amazon EC2 インスタンスの状態を自動的に変更できます。

    Amazon EventBridge を使用すると、アプリケーションの可用性の問題やリソースの変更などのシステムイベントに自動的に対応できます。ルールを作成して、注目しているイベントと、イベントがルールに一致した場合に実行するアクションを指定できます。自動的に開始できるアクションには、AWS Lambda 関数の呼び出し、Amazon EC2 Run Command の呼び出し、Amazon Kinesis Data Streams へのイベントのリレー、「EventBridge を使用して Amazon EC2 を自動化する」の表示が含まれます。

  4. 標準作業手順書 (SOP): アプリケーションコンポーネントに基づいて、AWS Resilience Hub は複数の SOP テンプレートを推奨します。これらの SOP を使用して、アラートが発生した場合にオペレーターが従うべきプロセスをすべて文書化できます。また、Resilience Hub のレコメンデーションに基づいて SOP を作成することもできます。その場合は、回復ポリシーを関連付けた Resilience Hub のアプリケーションと、そのアプリケーションに対する回復力評価の履歴が必要です。SOP のレコメンデーションは、回復力の評価を受けて作成されます。

    Resilience Hub は Systems Manager と連携して、SOP の基礎として使用できる多数の SSM ドキュメントを提供することで、SOP の手順を自動化します。例えば、Resilience Hub は既存の SSM 自動化ドキュメントに基づいてディスク容量を追加するための SOP を推奨する場合があります。

  5. Amazon DevOps Guru を使用して自動化アクションを実行する: Amazon DevOps Guru を使用して、異常な動作についてアプリケーションリソースを自動的にモニタリングし、的を絞ったレコメンデーションを提供することにより、問題の識別を速めて修復時間を短縮できます。DevOps Guru を使用すると、Amazon CloudWatch メトリクス、AWS ConfigAWS CloudFormationAWS X-Ray など、複数のソースからの運用データのストリームをほぼリアルタイムでモニタリングできます。また、DevOps Guru を使用して OpsCenter で OpsItems を自動的に作成し、イベントを EventBridge に送信して追加の自動化を行うこともできます。

リソース

関連するベストプラクティス:

関連ドキュメント:

関連動画:

関連する例: