本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在您擁有端點並了解一般推論工作流程之後,您可以使用 SageMaker AI 中的下列功能來改善推論工作流程。
監控
若要透過模型準確度和漂移等指標追蹤一段時間內的模型,您可以使用 Model Monitor。使用 Model Monitor,您可以設定警示,以便在模型品質出現偏差時通知您。若要進一步了解,請參閱 Model Monitor 文件。
若要進一步了解可用於監控模型部署和事件以變更端點的工具,請參閱監控 Amazon SageMaker AI。例如,您可以使用 Amazon CloudWatch 指標透過調用錯誤和模型延遲等指標來監控端點的運作狀態。SageMaker AI 端點調用指標可為您提供有關端點效能的寶貴資訊。
模型部署的 CI/CD
若要在 SageMaker AI 中整合機器學習解決方案,您可以使用 SageMaker AI MLOps。您可以使用此功能將機器學習工作流程中的步驟自動化,並練習 CI/CD。您可以使用 MLOps 專案範本來協助設定和實作 SageMaker AI MLOps 專案。SageMaker AI 也支援使用您自己的第三方 Git 儲存庫來建立 CI/CD 系統。
對於機器學習 (ML) 管道,請使用模型註冊表來管理模型版本,以及模型的部署和自動化。
部署防護機制
如果您想要在生產環境中更新模型而不影響生產環境,可以使用部署護欄。部署護欄是 SageMaker AI Inference 中的一組模型部署選項,可在生產環境中更新機器學習模型。使用完全受控的部署選項,您可以控制從生產環境中目前模型到新模型的交換器。流量轉移模式可讓您精細控制流量轉移程序,而自動回復等內建保護功能可協助您及早發現 catch 題。
若要進一步了解部署防護機制,請參閱部署防護機制文件。
Inferentia
如果您需要執行大規模機器學習和深度學習應用程式,您可以使用Inf1
執行個體搭配即時端點。此執行個體類型適用於影像或語音辨識、自然語言處理 (NLP)、個人化、預測或詐騙偵測等使用案例。
Inf1
執行個體專為支援機器學習推論應用程式而建置,並採用 AWS Inferentia 晶片。 Inf1
執行個體提供的輸送量更高,每個推論的成本也比 GPU 型執行個體更低。
若要在 Inf1
執行個體上部署模型,請使用 SageMaker Neo 編譯模型,然後選擇部署選項的 Inf1
執行個體。如需進一步了解,請參閱使用 SageMaker Neo 最佳化模型效能。
最佳化模型效能
SageMaker AI 提供在部署機器學習模型時管理資源和最佳化推論效能的功能。您可以使用 SageMaker AI 的內建演算法和預先建置的模型,以及專為機器學習開發的預先建置 Docker 映像。
若要訓練模型並將其最佳化以進行部署,請參閱預先建置的 Docker image使用 SageMaker Neo 最佳化模型效能。使用 SageMaker Neo,您可以訓練 TensorFlow、Apache MXNet、PyTorch、ONNX 和 XGBoost 模型。然後,您可以最佳化它們,並在 ARM、Intel 和 Nvidia 處理器上部署。
自動擴展
如果您的端點有不同數量的流量,則可能需要嘗試自動調度資源。例如,在尖峰時段,您可能需要更多執行個體來處理請求。不過,在低流量期間,您可能想要減少運算資源的使用。若要動態調整佈建的執行個體數量,以因應工作負載中的變更,請參閱Amazon SageMaker AI 模型的自動擴展。
如果您有無法預測的流量模式,或不想設定擴展政策,您也可以對端點使用無伺服器推論。然後,SageMaker AI 會為您管理自動擴展。在低流量期間,SageMaker AI 會縮減您的端點,如果流量增加,則 SageMaker AI 會擴展您的端點。如需詳細資訊,請參閱使用 Amazon SageMaker Serverless Inference 部署模型文件。