Amazon EC2 インスタンスでの CloudWatch アクションベースのリカバリの設定 - Amazon Elastic Compute Cloud

Amazon EC2 インスタンスでの CloudWatch アクションベースのリカバリの設定

重要

このセクションではEC2 インスタンスで復旧メカニズムをプロアクティブに設定する方法について説明します。これらの復旧メカニズムは がシステムステータスチェックが失敗する原因となる基盤となるハードウェアまたはソフトウェアの問題AWSを検出したときに、インスタンスの可用性を復元するように設計されています。インスタンスへのアクセスで現在問題が発生している場合は「EC2 インスタンスのトラブルシューティング」を参照してください。

は基盤となるハードウェアまたはソフトウェアの問題によりインスタンスが使用できないことをAWS検出した場合、CloudWatch アクションベースのリカバリは基盤となる問題のあるホストから別のホストにインスタンスを移動することで、インスタンスの可用性を自動的に復元できます。

CloudWatch アクションベースの復旧が発生した場合、 AWSは結果に応じてAWS Health Dashboard、次のいずれかのイベントを に送信します。

  • 成功イベント: AWS_EC2_INSTANCE_AUTO_RECOVERY_SUCCESS

  • 失敗イベント: AWS_EC2_INSTANCE_AUTO_RECOVERY_FAILURE

Amazon CloudWatch アクションベースの復旧を設定して、Amazon CloudWatch アラームに復旧アクションを追加できます。CloudWatch アクションベースの復旧は StatusCheckFailed_System メトリクスを使用して機能します。CloudWatch アクションベースの復旧機能は復旧アクションと結果に関する、最新の復旧応答時間の詳細度と Amazon Simple Notification Service (Amazon SNS) 通知を提供します。これらの設定オプションにより、簡易自動復旧と比較して、システムステータスチェックの障害イベントの応答をより詳細に制御して、より迅速な復旧試行が可能になります。使用可能な CloudWatch オプションの詳細については「インスタンスのステータスチェック」を参照してください。

ただし、CloudWatch アクションベースの復旧はインスタンスが running状態にあり、 にサービスイベントがリストされておらずAWS Health Dashboard、インスタンスタイプに使用可能な容量がある場合にのみ動作できます。大幅な停止などの状況では容量の制約により復旧の試行が失敗する可能性があります。詳細については「CloudWatch アクションベースの復旧障害のトラブルシューティング」を参照してください。

警告

基盤となるハードウェアまたはソフトウェアの問題により がインスタンスをAWS復旧する場合、次の結果に注意してください。揮発性メモリ (RAM) とインスタンスストアボリュームに保存されているデータは失われ、オペレーティングシステムの稼働時間はゼロから開始されます。データ損失を防ぐために、重要なデータのバックアップを定期的に作成することをお勧めします。Amazon EC2 インスタンスのバックアップと復旧のベストプラクティスの詳細については「Amazon EC2 のベストプラクティス」を参照してください。

自動インスタンス復旧メカニズムは個々のインスタンス用に設計されています。回復力のあるシステムの構築に関するガイダンスについては回復力のあるシステムを構築するを参照してください。

CloudWatch アクションベースの復旧の要件と制限

CloudWatch アクションベースの復旧は次の条件を満たすインスタンスで有効にできます。

インスタンスのタイプ
  • 凡用: A1、M3、M4、M5、M5a、M5n、M5zn、M6a、M6g、M6i、M6in、M7a、M7g、M7i、M7i-flex、M8g、T1、T2、T3、T3a、T4g

  • コンピューティング最適化: C3、C4、C5、C5a、C5n、C6a、C6g、C6gn、C6i、C6in、C7a、C7g、C7gn、C7i、C7i-flex、C8g

  • メモリ最適化: R3、R4、R5、R5a、R5b、R5n、R6a、R6g、R6i、R6in、R7a、R7g、R7i、R7iz、R8g、U-3tb1、U-6tb1、U-9tb1、U-12tb1、U-18tb1、 U-24tb1、U7i-6tb、 U7i-8tb、U7i-12tb、U7in-16tb、U7in-24tb、U7in-32tb、U7inh-32tb、X1、X1e、X2idn、X2iedn、X2iezn、X8g

  • 高速コンピューティング: G3、G5g、Inf1、P2、P3、VT1

  • ハイパフォーマンスコンピューティング: Hpc6a、Hpc7a、Hpc7g

  • メタルインスタンス: メタルインスタンスサイズを持つ上記のインスタンス タイプのいずれか。

  • 起動時にインスタンスストアボリュームが追加された場合: 次のインスタンス タイプのみがサポートされます: M3、C3、R3、X1、X1e、X2idn、X2iedn

テナンシー
  • Shared

  • Dedicated Instance

詳細については「Amazon EC2 ハードウェア専有インスタンス」を参照してください。

制約事項

CloudWatch アクションベースの復旧は次の特性を持つインスタンスではサポートされていません。

  • テナンシー: 専用ホスト。専用ホスト の場合は代わりに Dedicated Host Auto Recovery を使用します。

  • ネットワーク: エラスティックファブリックアダプタ を使用するインスタンス

  • オートスケーリング: オートスケーリング グループの一部であるインスタンス

  • メンテナンス: スケジュールされたメンテナンスイベントを現在実行しているインスタンス

Amazon CloudWatch アクションベースの復旧をサポートするインスタンスタイプを表示するには

AWS Management Console または AWS CLI を使用して、CloudWatch アクションベースの復旧をサポートするインスタンスタイプを表示できます。

Console
Amazon CloudWatch アクションベースの復旧をサポートするインスタンスタイプを表示するには
  1. Amazon EC2 コンソールの https://console.aws.amazon.com/ec2/ を開いてください。

  2. 左のナビゲーションペインで、[Instance Types] (インスタンスタイプ) を選択してください。

  3. フィルターバーに「Auto Recovery support: true」と入力してください。あるいはこの文字列を入力していくと該当するフィルター名が表示されるので、そのフィルターを選択できます。

    [インスタンスタイプ] テーブルには、Amazon CloudWatch アクションベースの復旧をサポートするすべてのインスタンスタイプが表示されます。

AWS CLI
Amazon CloudWatch アクションベースの復旧をサポートするインスタンスタイプを表示するには

describe-instance-types コマンドを使用 auto-recovery-supported します。

aws ec2 describe-instance-types \ --filters Name=auto-recovery-supported,Values=true \ --query "InstanceTypes[*].[InstanceType]" \ --output text | sort

CloudWatch アクションベースの復旧

EC2 インスタンスの CloudWatch アクションベースの復旧を設定するには指定されたインスタンスの StatusCheckFailed_Systemメトリクスをモニタリングする CloudWatch アラームを作成します。メトリクス値が 1 の場合にトリガーされるようにアラームを設定します。これはシステムステータスチェックが失敗したことを示します。トリガーされたときにインスタンスを自動的に復旧するようにアラームアクションを設定します。

Amazon EC2 コンソールまたは CloudWatch コンソールを使用してアラームを作成できます。手順についてはこのユーザーガイドAmazon CloudWatch アラームへの復旧アクションの追加の「」、または Amazon CloudWatch ユーザーガイド」の「Amazon CloudWatch アラームへの復旧アクションの追加Amazon CloudWatch」を参照してください。

CloudWatch アクションベースの復旧障害のトラブルシューティング

次の問題により、CloudWatch アクションベースの復旧によるインスタンスの復旧が失敗する場合があります。

  • AWS サービスイベントが実行されている

    CloudWatch アクションベースの復旧はAWS Health Dashboard のサービスイベント中は動作しません。これらのイベントが原因で復旧が失敗しても、その通知を受信しない可能性があります。最新のサービス可用性情報については「サービスヘルス」のステータスページを参照してください。

  • 容量不足

    インスタンスを移行するための代替ハードウェアが一時的に不足しています。

  • 1 日あたりの最大復旧試行回数に達しました

    インスタンスが、1 日に許可されている復旧試行の最大数に達しました。自動復旧が失敗し、元のシステムステータスチェックエラーの根本原因がハードウェアの機能低下であると判断された場合、対象のインスタンスが使用停止になることがあります。

複数の復旧試行にもかかわらずインスタンスのシステムステータスチェックエラーが続く場合は「ステータスチェックに失敗したインスタンスのトラブルシューティング」を参照して、追加のガイダンスを確認してください。