使用 CloudWatch 指標來要監控 Elastic Graphics - Amazon Elastic Compute Cloud

使用 CloudWatch 指標來要監控 Elastic Graphics

您可以使用會收集加速器效能指標的 Amazon CloudWatch 來監控 Elastic Graphics 加速器。這些統計資料會保存兩週的期間,以便您存取歷史資訊,並更清楚服務的執行方式。

根據預設,Elastic Graphics 加速器每 5 分鐘會傳送指標資料到 CloudWatch 一次。

如需 Amazon CloudWatch 的詳細資訊,請參閱 Amazon CloudWatch 使用者指南

Elastic Graphics 指標

AWS/ElasticGPUs 命名空間包含下列 Elastic Graphics 指標。

指標 描述

GPUConnectivityCheckFailed

回報 Elastic Graphics 加速器的連線為作用中或失敗。0 值指出連線為作用中。1 值指出連線失敗。

單位:計數

GPUHealthCheckFailed

回報 Elastic Graphics 加速器是否在最後一分鐘通過運作狀態檢查。0 值指出已通過狀態檢查。值一 (1) 指出狀態檢查失敗。

單位:計數

GPUMemoryUtilization

已使用的 GPU 記憶體。

單位:MiB

Elastic Graphics 維度

您可以利用下列維度來篩選 Elastic Graphics 加速器的指標資料。

維度 描述
EGPUId 依照 Elastic Graphics 加速器篩選資料。
InstanceId 依照 Elastic Graphics 加速器所連接之執行個體篩選資料。

檢視 Elastic Graphics 的 CloudWatch 指標

指標會先依服務命名空間分組,再依支援的維度分組。您可以使用下列程序檢視 Elastic Graphics 加速器的指標。

使用 CloudWatch 主控台檢視 Elastic Graphics 指標

  1. 透過 https://console.aws.amazon.com/cloudwatch/ 開啟 CloudWatch 主控台。

  2. 如有必要請變更區域。從導覽列,選取您 Elastic Graphics 加速器所在的區域。如需詳細資訊,請參閱區域與端點

  3. 在導覽窗格中,選擇 Metrics (指標)。

  4. 針對 All metrics (所有指標),選取 Elastic GraphicsElastic Graphics Metrics (Elastic Graphics 指標)

檢視 Elastic Graphics 指標 (AWS CLI)

使用下列 list-metrics 命令:

aws cloudwatch list-metrics --namespace "AWS/ElasticGPUs"

建立 CloudWatch 警示來監控 Elastic Graphics

您可以建立 CloudWatch 警示,其在警示變更狀態時傳送 Amazon SNS 訊息。警示會監看您指定期間內的單一指標,然後根據若干這樣的時段內相對於指定閾值的指標值,向 Amazon SNS 主題傳送通知。

例如,您可以建立警示來監控 Elastic Graphics 加速器的運作狀態,當圖形加速器在接連三個 5 分鐘的期間內未通過運作狀態檢查時傳送通知。

建立 Elastic Graphics 加速器運作狀態警示

  1. 透過 https://console.aws.amazon.com/cloudwatch/ 開啟 CloudWatch 主控台。

  2. 在導覽窗格中,選擇 Alarms (警示)、Create Alarm (建立警示)。

  3. 選擇 Select metric (選取指標)Elastic GraphicsElastic Graphics Metrics (Elastic Graphics 指標)

  4. 選取 GPUHealthCheckFailed 指標,並選擇 Select metric (選取指標)

  5. 請如下所示設定警示:

    1. 針對 Alarm details (警示詳細資訊),輸入警示的名稱和描述。針對 Whenever (每當),選擇 >= 並輸入 1

    2. 針對 Actions (動作),選取現有的通知清單,或選擇 New list (新增清單)

    3. 選擇Create Alarm (建立警示)。