監控互動端點 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

監控互動端點

使用 EKS 6.10 版及更新版本的 Amazon EMR,互動式端點會發出 Amazon CloudWatch 指標,用於監控核心生命週期操作和疑難排解。指標是由互動式用戶端 (例如 EMR Studio 或自行託管的 Jupyter 筆記本) 觸發。互動端點支援的每個操作都有與其相關聯的指標。操作會建模為每個指標的維度,如下表所示。互動端點發出的指標會顯示在您帳戶中的自訂命名空間 EMRContainers 下方。

指標 描述 單位

RequestCount

互動端點所處理之操作的請求累計數目。

計數

RequestLatency

從請求到達互動端點到互動端點傳送回應的時間。

毫秒

4XXError

當操作的請求導致在處理過程中出現 4xx 錯誤時發出。

計數

5XXError

當操作的請求導致 5Xxx 伺服器端錯誤時發出。

計數

KernelLaunch成功

僅適用於 CreateKernel 操作。它表示成功執行且包含此請求的核心啟動累計次數。

計數

KernelLaunch失敗

僅適用於 CreateKernel 操作。它表示發生失敗且包含此請求的核心啟動累計次數。

計數

每個互動端點指標都附接有下列兩個維度:

  • ManagedEndpointId - 互動端點的識別符

  • OperationName - 互動式用戶端觸發的操作

OperationName 維度的可能值如下表所示:

operationName 操作說明

CreateKernel

互動端點啟動核心的請求。

ListKernels

互動端點列出核心 (先前已使用相同的工作階段字符啟動這些核心) 的請求。

GetKernel

互動端點取得先前已啟動之特定核心詳細資訊的請求。

ConnectKernel

互動端點在筆記本用戶端與核心之間建立連線的請求。

ConfigureKernel

在 pyspark 核心上發布 %%configure magic request

ListKernelSpecs

互動端點列出可用核心規範的請求。

GetKernelSpec

互動端點取得先前已啟動之核心規範的請求。

GetKernelSpecResource

互動端點取得先前已啟動之核心規範相關聯特定資源的請求。

範例

若要存取在特定日期為互動端點啟動的核心總數:

  1. 選取自訂命名空間:EMRContainers

  2. 選取您的 ManagedEndpointIdOperationName – CreateKernel

  3. 具有統計值 SUM 和期限 1 dayRequestCount 指標將提供過去 24 小時內發出的所有核心啟動請求。

  4. KernelLaunchSuccess 具有統計值SUM和期間的度量1 day將提供過去 24 小時內發出的所有成功核心啟動要求。

若要存取特定日期互動端點的核心失敗次數:

  1. 選取自訂命名空間:EMRContainers

  2. 選取您的 ManagedEndpointIdOperationName – CreateKernel

  3. 具有統計值 SUM 和期限 1 dayKernelLaunchFailure 指標將提供過去 24 小時內發出的所有失敗的核心啟動請求。也可選擇 4XXError5XXError 指標來了解發生了什麼類型的核心啟動失敗。