本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
解讀建議結果
每個推論建議任務結果都包含 InstanceType
、InitialInstanceCount
和 EnvironmentParameters
,這些參數是針對容器調整的環境變數參數,以改善其延遲和輸送量。結果還包含效能和成本指標,例如 MaxInvocations
、ModelLatency
、CostPerHour
、CostPerInference
、CpuUtilization
和 MemoryUtilization
。
在下表中,我們提供了這些指標的說明。這些指標可協助您縮小搜尋範圍,找出適合您使用案例的最佳端點組態。例如,如果您的動機是強調輸送量的整體價格表現,那麼您應專注於 CostPerInference
。
指標 | 描述 | 使用案例 |
---|---|---|
|
從中檢視的模型回應所花費的時間間隔 SageMaker。這個間隔包含傳送請求和從模型容器擷取回應的本機通訊時間,以及在容器中完成推論的時間。 單位:毫秒 |
延遲敏感的工作負載,例如廣告投放和醫療診斷 |
|
一分鐘內傳送到模型端點的 單位:無 |
以輸送量為中心的工作負載,例如影片處理或批次推論 |
|
即時端點每小時的預估成本。 單位:美元 |
成本敏感的工作負載,無延遲期限 |
|
即時端點每次推論呼叫的預估成本。 單位:美元 |
專注於輸送量,將整體價格效能發揮到極致 |
|
端點執行個體每分鐘調用上限時的預期 CPU 利用率。 單位:百分比 |
透過了解執行個體的核心 CPU 利用率,掌握基準測試期間的執行個體運作狀態 |
|
端點執行個體每分鐘調用上限時的預期記憶體利用率。 單位:百分比 |
透過了解執行個體的核心記憶體利用率,掌握基準測試期間的執行個體運作狀態 |
在某些情況下,您可能想要探索其他SageMaker 端點叫用指標,例如CPUUtilization
. 每個 Inference Recommender 任務結果都包含負載測試期間啟動的端點名稱。您可以使用 CloudWatch 來檢閱這些端點的記錄檔,即使這些端點已刪除也是如此。
下列影像是您可以從建議結果檢閱單一端點的 CloudWatch 量度和圖表範例。此建議結果來自某項預設任務。解讀建議結果中的純量值的方法是,它們是根據調用圖表首次開始向外平整時的時間點。例如,報告的 ModelLatency
值是在 03:00:31
高原的開始處持平。
![下列 CloudWatch 測量結果的圖表:呼叫、、CPU 使用率 ModelLatency、 OverheadLatency、呼叫 4xxError MemoryUtilization DiskUtilization、呼叫 5xxError 和. InvocationsPerInstance](images/inference-recommender-cw-metrics.png)
如需先前圖表中使用之 CloudWatch 測量結果的完整說明,請參閱SageMaker 端點呼叫測量結果。
您也可以在 /aws/sagemaker/InferenceRecommendationsJobs
命名空間中查看 Inference Recommender 所發佈的效能指標,例如 ClientInvocations
和 NumberOfUsers
。如需 Inference Recommender 所發佈的指標和說明之完整指標清單,請參閱SageMaker 推論推薦工作量度。
請參閱 amazon-sagemaker-examples