推論成本最佳化最佳實務

下列內容提供最佳化端點成本的技術和考量事項。您可以使用這些建議來最佳化新端點和現有端點的成本。

最佳實務

若要最佳化您的 SageMaker 推論成本，請遵循以下最佳做法。

SageMaker 提供 4 種不同的推論選項，為工作提供最佳的推論選項。您可以選擇最符合您工作負載的推論選項，以節省成本。

針對具有可預測流量模式的低延遲工作負載使用即時推論，這些模式需要具有一致的延遲特性且一律可用。您需要支付使用該執行個體的費用。
對具有同步流量模式並可接受 p99 延遲變化的同步工作負載使用無伺服器推論。無伺服器推論會自動擴展以符合您的工作負載流量，因此您無需支付任何閒置資源的費用。您僅需按照推論請求期間支付費用。相同的模型和容器可與即時和無伺服器推論搭配使用，因此您可以在需求變更時在這兩種模式之間切換。
對處理高達 1 GB 資料 (例如文字語料庫、映像、影片和音訊) 且對延遲不敏感且對成本敏感的非同步工作負載使用非同步推論。透過非同步推論，您可以指定固定數量的執行個體以獲得最佳處理速率，而不是針對尖峰進行佈建來控制成本。您還可以縮小到零以節省額外成本。
對於離線發生的大量資料集進行所需推理 (即，不需要持續端點) 的工作負載，請使用批次推論。您需要支付批次推論任務期間的執行個體費用。

如果您在所有 SageMaker 服務中都有一致的使用水平，您可以選擇加入 S SageMaker avings Plan，以幫助您降低高達 64% 的成本。
Amazon S SageMaker avings Plan s 為 Amazon 提供彈性的定價模式 SageMaker，以換取一年或三年期限內一致使用量 (以每小時 $ 計算) 的承諾。這些方案會自動套用至符合資格的 SageMaker ML 執行個體用途，包括 SageMaker Studio Classic 筆記本、 SageMaker 隨選筆記本、 SageMaker 處理、 SageMaker 資料牧馬人、 SageMaker 訓練、 SageMaker 即時推論和 SageMaker Batch 轉換，無論執行個體系列、大小或區域為何。例如，您可以隨時將在美國東部 (俄亥俄州) 執行的 CPU ml.c5.xlarge 執行個體變更為美國西部 (奧勒岡州) 的 ML.inf1 執行個體用於推論工作負載，並自動繼續支付 Savings Plans 價格。

未最佳化的模型可能導致更長的執行時間並使用更多資源。您可以選擇使用更多或更大的執行個體來改善效能；然而，這會導致更高的成本。
透過將模型最佳化以提高效能，您可以使用較少或更小的執行個體來降低成本，同時保持相同或更好的效能特性。您可以將 SageMaker Neo 與 SageMaker 推論搭配使用，以自動最佳化模型。如需詳細資訊和範例，請參閱使用 Neo 最佳化模型效能。

SageMaker 推論具有 70 多種執行個體類型和大小，可用於部署 ML 模型，包括 AWS 針對 ML 最佳化的推論與引力晶片組。為您的模型選擇正確的執行個體，有助於確保您以最低的模型成本擁有效能最高的執行個體。

透過使用 Inference Recommender，您可以快速比較不同的執行個體，以瞭解模型的效能和成本。有了這些結果，您就可以選擇部署具有最佳投資報酬率的執行個體。

當您部署多個端點時，成本可能會快速增加，尤其是在端點未完全利用基礎執行個體的情況下。若要瞭解執行個體是否未充分利用，請檢查 Amazon CloudWatch 中執行個體的使用率指標 (CPU等)。GPU如果您有多個這些端點，則可以將這些多個端點上的模型或容器合併為單一端點。
使用多模型端點 (MME) 或多容器端點 (MCE)，您可以在單一端點中部署多個 ML 模型或容器，以在多個模型或容器之間共用執行個體，並提高投資報酬率。若要進一步了解，請參閱使用 Amazon SageMaker 多模型端點節省推論成本，或使用 Amazon 上的 Amazon 多容器端點在單一執行個體上部署 SageMaker 多個服務容器 AWS Machine Learning 部落格。

若無自動調度資源，您需要針對峰值流量或無法使用風險模型進行佈建。除非您模型的流量全天穩定，否則會有過多的未使用容量。這會導致低使用率和資源浪費。
自動調度資源 out-of-the-box 功能可監控您的工作負載並動態調整容量，以盡可能低的成本維持穩定且可預測的效能。當工作負載增加時，自動調整規模功能會讓更多的執行個體上線。當工作負載減少時，自動擴展會移除不必要的執行個體，協助您降低運算成本。若要進一步了解，請參閱在 Amazon SageMaker 上設定自動調度資源推論端點 AWS Machine Learning 部落格。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

對部署進行故障診斷

減少GPU驅動程式升級期間中斷的最佳做法