CloudWatch メトリクスを使用した Elastic Graphics のモニタリング
重要
Amazon Elastic Graphics は 2024 年 1 月 8 日に販売終了となりました。グラフィックスアクセラレーションが必要なワークロードの場合は、Amazon EC2 G4ad、G4dn、または G5 インスタンスを使用することをお勧めします。
Amazon CloudWatch を使用すると、アクセラレーターのパフォーマンスに関するメトリクスが収集され、Elastic Graphics をモニタリングできます。これらの統計情報は 2 週間単位で記録されるため、履歴情報にアクセスしてサービスの動作をより的確に把握できます。
デフォルトでは、Elastic Graphics アクセラレーターは 5 分ごとにメトリクスデータを CloudWatch に送信します。
Amazon CloudWatch の詳細については、「Amazon CloudWatch ユーザーガイド」を参照してください。
Elastic Graphics メトリクス
AWS/ElasticGPUs
名前空間には、Elastic Graphics の次のメトリクスが含まれます。
メトリクス | 説明 |
---|---|
GPUConnectivityCheckFailed |
Elastic Graphics アクセラレーターへの接続が有効であるか、あるいは失敗したかを報告します。値がゼロ (0) の場合、接続が有効であることを示します。値が 1 (1) の場合、接続が失敗したことを示します。 単位: カウント |
GPUHealthCheckFailed |
この 1 分間に Elastic Graphics アクセラレーターがステータスヘルスチェックに成功したかどうかを報告します。値がゼロ (0) の場合、ステータスチェックが成功したことを示します。値が 1 (1) の場合、ステータスチェックが失敗したことを示します。 単位: カウント |
GPUMemoryUtilization |
使用された GPU メモリ。 単位: MiB |
Elastic Graphics のディメンション
次のディメンションを使用して、Elastic Graphics アクセラレーターのメトリクスデータをフィルタリングできます。
ディメンション | 説明 |
---|---|
EGPUId |
Elastic Graphics アクセラレーターに基づいてデータをフィルタリングします。 |
InstanceId |
Elastic Graphics アクセラレーターが接続されているインスタンスに基づいてデータをフィルタリングします。 |
Elastic Graphics の CloudWatch メトリクスの表示
メトリクスはまずサービス名前空間ごとにグループ化され、次にサポートされているディメンションごとにグループ化されます。以下の手順を使用して、Elastic Graphics アクセラレーターのメトリクスを表示できます。
CloudWatch コンソールを使用して Elastic Graphics メトリクスを表示するには
CloudWatch コンソール (https://console.aws.amazon.com/cloudwatch/
) を開きます。 -
必要に応じてリージョンを変更します。ナビゲーションバーから、Elastic Graphics アクセラレーターがあるリージョンを選択します。詳細については、「リージョンとエンドポイント」を参照してください。
-
ナビゲーションペインで [Metrics (メトリクス)] を選択します。
-
[All metrics (すべてのメトリクス)] で、[Elastic Graphics]、[Elastic Graphics Metrics (Elastic Graphics のメトリクス)] の順に選択します。
Elastic Graphics メトリクス (AWS CLI) を表示するには
次の list-metrics コマンドを使用します。
aws cloudwatch list-metrics --namespace "AWS/ElasticGPUs"
Elastic Graphics をモニタリングする CloudWatch アラームの作成
CloudWatch アラームを作成できます。これは、アラームの状態が変わったときに Amazon SNS メッセージを送信します。アラームは指定された期間にわたって単一のメトリクスをモニタリングし、複数の期間にわたり既定のしきい値に関連するメトリクス値に基づいて Amazon SNS トピックに通知を送信します。
たとえば、Elastic Graphics アクセラレーターのヘルス状態をモニタリングするアラームを作成して、グラフィックスアクセラレーターが 5 分間で 3 回連続してステータスヘルスチェックに失敗したときに通知することができます。
Elastic Graphics アクセラレーターのヘルスステータスのアラームを作成するには
CloudWatch コンソール (https://console.aws.amazon.com/cloudwatch/
) を開きます。 -
ナビゲーションペインで、[Alarms]、[Create Alarm] の順に選択します。
-
[Select metric (メトリクスの選択)]、[Elastic Graphics]、[Elastic Graphics Metrics (Elastic Graphics のメトリクス)] の順に選択します。
-
[GPUHealthCheckFailed] メトリクスを選択し、[Select metric (メトリクスの選択)] を選択します。
-
アラームを次のように設定します。
-
[Alarm details (アラームの詳細)] で、アラームの名前と説明を入力します。[Whenever (次の時)] で、[>=] を選択し、[
1
] を入力します。 -
[アクション] で、既存の通知のリストを選択するか、[新しいリスト] を選択します。
-
[Create Alarm] を選択します。
-