推論成本最佳化最佳實務 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

推論成本最佳化最佳實務

下列內容提供最佳化端點成本的技術和考量事項。您可以使用這些建議來最佳化新端點和現有端點的成本。

最佳實務

若要最佳化您的 SageMaker 推論成本,請遵循以下最佳做法。

SageMaker 提供 4 種不同的推論選項,為工作提供最佳的推論選項。您可以選擇最符合您工作負載的推論選項,以節省成本。

  • 針對具有可預測流量模式的低延遲工作負載使用即時推論,這些模式需要具有一致的延遲特性且一律可用。您需要支付使用該執行個體的費用。

  • 對具有同步流量模式並可接受 p99 延遲變化的同步工作負載使用無伺服器推論。無伺服器推論會自動擴展以符合您的工作負載流量,因此您無需支付任何閒置資源的費用。您僅需按照推論請求期間支付費用。相同的模型和容器可與即時和無伺服器推論搭配使用,因此您可以在需求變更時在這兩種模式之間切換。

  • 對處理高達 1 GB 資料 (例如文字語料庫、映像、影片和音訊) 且對延遲不敏感且對成本敏感的非同步工作負載使用非同步推論。透過非同步推論,您可以指定固定數量的執行個體以獲得最佳處理速率,而不是針對尖峰進行佈建來控制成本。您還可以縮小到零以節省額外成本。

  • 對於離線發生的大量資料集進行所需推理 (即,不需要持續端點) 的工作負載 ,請使用批次推論。您需要支付批次推論任務期間的執行個體費用。

  • 如果您在所有 SageMaker 服務中都有一致的使用水平,您可以選擇加入 S SageMaker avings Plan,以幫助您降低高達 64% 的成本。

  • Amazon S SageMaker avings Plan s 為 Amazon 提供彈性的定價模式 SageMaker,以換取一年或三年期限內一致使用量 (以每小時 $ 計算) 的承諾。這些方案會自動套用至符合資格的 SageMaker ML 執行個體用途,包括 SageMaker Studio Classic 筆記本、 SageMaker 隨選筆記本、 SageMaker 處理、 SageMaker 資料牧馬人、 SageMaker 訓練、 SageMaker 即時推論和 SageMaker Batch 轉換,無論執行個體系列、大小或區域為何。例如,您可以隨時將在美國東部 (俄亥俄州) 執行的 CPU ml.c5.xlarge 執行個體變更為美國西部 (奧勒岡州) 的 ML.inf1 執行個體用於推論工作負載,並自動繼續支付 Savings Plans 價格。

  • 未最佳化的模型可能導致更長的執行時間並使用更多資源。您可以選擇使用更多或更大的執行個體來改善效能;然而,這會導致更高的成本。

  • 透過將模型最佳化以提高效能,您可以使用較少或更小的執行個體來降低成本,同時保持相同或更好的效能特性。您可以將 SageMaker Neo 與 SageMaker 推論搭配使用,以自動最佳化模型。如需詳細資訊和範例,請參閱使用 Neo 最佳化模型效能

  • SageMaker 推論具有 70 多種執行個體類型和大小,可用於部署 ML 模型,包括 AWS 針對 ML 最佳化的推論與引力晶片組。為您的模型選擇正確的執行個體,有助於確保您以最低的模型成本擁有效能最高的執行個體。

  • 透過使用 Inference Recommender,您可以快速比較不同的執行個體,以瞭解模型的效能和成本。有了這些結果,您就可以選擇部署具有最佳投資報酬率的執行個體。

  • 若無自動調度資源,您需要針對峰值流量或無法使用風險模型進行佈建。除非您模型的流量全天穩定,否則會有過多的未使用容量。這會導致低使用率和資源浪費。

  • 自動調度資源 out-of-the-box 功能可監控您的工作負載並動態調整容量,以盡可能低的成本維持穩定且可預測的效能。當工作負載增加時,自動調整規模功能會讓更多的執行個體上線。當工作負載減少時,自動擴展會移除不必要的執行個體,協助您降低運算成本。若要進一步了解,請參閱在 Amazon SageMaker 上設定自動調度資源推論端點 AWS Machine Learning 部落格。