解讀建議結果 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

解讀建議結果

每個推論建議任務結果都包含 InstanceTypeInitialInstanceCountEnvironmentParameters,這些參數是針對容器調整的環境變數參數,以改善其延遲和輸送量。結果還包含效能和成本指標,例如 MaxInvocationsModelLatencyCostPerHourCostPerInferenceCpuUtilizationMemoryUtilization

在下表中,我們提供了這些指標的說明。這些指標可協助您縮小搜尋範圍,找出適合您使用案例的最佳端點組態。例如,如果您的動機是強調輸送量的整體價格表現,那麼您應專注於 CostPerInference

指標 描述 使用案例

ModelLatency

從中檢視的模型回應所花費的時間間隔 SageMaker。這個間隔包含傳送請求和從模型容器擷取回應的本機通訊時間,以及在容器中完成推論的時間。

單位:毫秒

延遲敏感的工作負載,例如廣告投放和醫療診斷

MaximumInvocations

一分鐘內傳送到模型端點的 InvokeEndpoint 請求數上限。

單位:無

以輸送量為中心的工作負載,例如影片處理或批次推論

CostPerHour

即時端點每小時的預估成本。

單位:美元

成本敏感的工作負載,無延遲期限

CostPerInference

即時端點每次推論呼叫的預估成本。

單位:美元

專注於輸送量,將整體價格效能發揮到極致

CpuUtilization

端點執行個體每分鐘調用上限時的預期 CPU 利用率。

單位:百分比

透過了解執行個體的核心 CPU 利用率,掌握基準測試期間的執行個體運作狀態

MemoryUtilization

端點執行個體每分鐘調用上限時的預期記憶體利用率。

單位:百分比

透過了解執行個體的核心記憶體利用率,掌握基準測試期間的執行個體運作狀態

在某些情況下,您可能想要探索其他SageMaker 端點叫用指標,例如CPUUtilization. 每個 Inference Recommender 任務結果都包含負載測試期間啟動的端點名稱。您可以使用 CloudWatch 來檢閱這些端點的記錄檔,即使這些端點已刪除也是如此。

下列影像是您可以從建議結果檢閱單一端點的 CloudWatch 量度和圖表範例。此建議結果來自某項預設任務。解讀建議結果中的純量值的方法是,它們是根據調用圖表首次開始向外平整時的時間點。例如,報告的 ModelLatency 值是在 03:00:31 高原的開始處持平。

下列 CloudWatch 測量結果的圖表:呼叫、、CPU 使用率 ModelLatency、 OverheadLatency、呼叫 4xxError MemoryUtilization DiskUtilization、呼叫 5xxError 和. InvocationsPerInstance

如需先前圖表中使用之 CloudWatch 測量結果的完整說明,請參閱SageMaker 端點呼叫測量結果

您也可以在 /aws/sagemaker/InferenceRecommendationsJobs 命名空間中查看 Inference Recommender 所發佈的效能指標,例如 ClientInvocationsNumberOfUsers。如需 Inference Recommender 所發佈的指標和說明之完整指標清單,請參閱SageMaker 推論推薦工作量度

請參閱 amazon-sagemaker-examplesGithub 儲存庫中的 Amazon SageMaker 推論建議程式- CloudWatch 指標 Jupyter 筆記本,以取得如何使 AWS SDK for Python (Boto3) 探索端點指標的範例。 CloudWatch