部署用於推論的模型

透過 Amazon SageMaker AI，您可以從訓練過的機器學習模型開始取得預測或推論。SageMaker AI 提供廣泛的 ML 基礎設施和模型部署選項，以協助滿足您的所有 ML 推論需求。使用 SageMaker AI Inference，您可以擴展模型部署、更有效地在生產環境中管理模型，並減少營運負擔。SageMaker AI 為您提供各種推論選項，例如取得低延遲推論的即時端點、全受管基礎設施和自動擴展的無伺服器端點，以及批次請求的非同步端點。透過利用適用於使用案例的適當推論選項，您可以確保高效且模型化的部署和推論。

選擇功能

使用 SageMaker AI 部署 ML 模型有幾個使用案例。本節說明這些使用案例，以及我們建議用於每個使用案例的 SageMaker AI 功能。

使用案例

以下是使用 SageMaker AI 部署 ML 模型的主要使用案例。

使用案例 1：在低程式碼或無程式碼環境中部署機器學習模型。對於初學者或 SageMaker AI 新手，您可以透過 Amazon SageMaker Studio 介面使用 Amazon SageMaker JumpStart 部署預先訓練的模型，而不需要複雜的組態。 Amazon SageMaker
使用案例 2：使用程式碼來部署具有更多彈性和控制的機器學習模型。經驗豐富的機器學習從業人員可以使用 SageMaker AI Python SDK 中的 ModelBuilder類別，根據其應用程式需求使用自訂設定部署自己的模型，該開發套件可對各種設定提供精細的控制，例如執行個體類型、網路隔離和資源配置。
使用案例 3：大規模部署機器學習模型。對於想要大規模管理生產中模型的進階使用者和組織，請使用 AWS SDK for Python (Boto3) 和 AWS CloudFormation 以及您想要的基礎設施作為程式碼 (IaC) 和 CI/CD 工具，來佈建資源並自動化資源管理。

推薦功能

下表說明與每個使用案例對應的 SageMaker AI 功能的主要考量和權衡。

	使用案例 1	使用案例 2	使用案例 3
SageMaker AI 功能	在 Studio 中使用 JumpStart 來加速基礎模型部署。	從 SageMaker Python SDK 使用 ModelBuilder 部署模型。	使用大規模部署和管理模型 AWS CloudFormation。
描述	使用 Studio UI 將預先訓練的模型從目錄部署到預先設定的推論端點。此選項非常適合公民資料科學家，或想要部署模型而不設定複雜設定的任何人。	使用 Amazon SageMaker AI Python SDK 中的 `ModelBuilder`類別來部署您自己的模型並設定部署設定。此選項非常適合經驗豐富的資料科學家，或擁有自己的模型來部署和需要精細控制的任何人員。	使用 AWS CloudFormation 和 Infrastructure as Code (IaC) 進行程式設計控制和自動化，以部署和管理 SageMaker AI 模型。此選項非常適合需要一致且可重複部署的進階使用者。
針對最佳化	快速且簡化的熱門開放原始碼模型部署	部署您自己的模型	持續管理生產中的模型
考量事項	缺乏容器設定和特定應用程式需求的自訂	沒有 UI，需要您放心開發和維護 Python 程式碼	需要基礎設施管理和組織資源，也需要熟悉 AWS SDK for Python (Boto3) 或 AWS CloudFormation 範本。
建議的環境	SageMaker AI 網域	以您的 AWS 登入資料和已安裝的 SageMaker Python SDK 設定的 Python 開發環境，或 SageMaker AI IDE，例如 SageMaker JupyterLab	AWS CLI、本機開發環境和基礎設施即程式碼 (IaC) 和 CI/CD 工具

其他選項

SageMaker AI 為您的推論使用案例提供不同的選項，讓您選擇部署的技術廣度和深度：

將模型部署至端點。部署模型時，請考慮下列選項：
- 即時推論。即時推論非常適合具有互動式、低延遲需求的推論工作負載。
- 使用 Amazon SageMaker Serverless Inference 部署模型。使用無伺服器推論來部署模型，而無需設定或管理任何基礎基礎設施。此選項非常適合流量間有閒置期間且可容忍冷啟動的工作負載。
- 非同步推論。會將傳入的請求排入佇列，並以非同步方式處理。此選項適用於承載大小較大（最高 1GB)、處理時間較長（最高toAsynchronous推論）和近乎即時延遲需求的請求
成本最佳化。若要最佳化推論成本，請考慮下列選項：
- 使用 SageMaker Neo 最佳化模型效能。使用 SageMaker Neo 以更好的效能和效率最佳化和執行您的機器學習模型，透過自動最佳化模型以在 AWS Inferentia 晶片等環境中執行，協助您將運算成本降至最低。
- Amazon SageMaker AI 模型的自動擴展。使用自動調整規模，根據傳入流量模式動態調整端點的運算資源，這可協助您僅支付在給定時間使用的資源，以最佳化成本。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

GPU 錯誤的叢集修復

模型部署