使用 SageMaker Python SDK 使用 SMDDP 啟動分散式訓練任務 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 SageMaker Python SDK 使用 SMDDP 啟動分散式訓練任務

若要從 使用調整後的指令碼執行分散式訓練任務調整訓練指令碼以使用 SMDDP 集體操作,請使用 SageMaker Python SDK 的架構或一般估算器,方法是將準備好的訓練指令碼指定為進入點指令碼和分散式訓練組態。

此頁面會逐步說明如何以兩種方式使用 SageMaker AI Python SDK

  • 如果您想要在 SageMaker AI 中快速採用分散式訓練任務,請設定 SageMaker AI PyTorchTensorFlow 架構估算器類別。架構估算器會挑選您的訓練指令碼,並自動比對預先建置的 PyTorch 或 TensorFlow 深度學習容器 (DLC) 的正確映像 URI,且根據指定給 framework_version 參數的值來執行。

  • 如果您想要擴充其中一個預先建置的容器,或建置自訂容器以使用 SageMaker AI 建立自己的 ML 環境,請使用 SageMaker AI 一般Estimator類別,並指定 Amazon Elastic Container Registry (Amazon ECR) 中託管的自訂 Docker 容器的影像 URI。

您的訓練資料集應存放在 Amazon S3 或 Amazon FSx for Lustre 中,位於您啟動訓練任務 AWS 區域 的 。如果您使用 Jupyter 筆記本,則應有 SageMaker 筆記本執行個體或 SageMaker Studio Classic 應用程式在相同 中執行 AWS 區域。有關儲存訓練資料的詳細資訊,請參閱 SageMaker Python SDK 資料輸入 文件。

提示

我們建議您使用 Amazon FSx for Lustre 而非 Amazon S3 來改善訓練效能。Amazon FSx 具有比 Amazon S3 更高的輸送量和更低的延遲。

提示

若要在啟用 EFA 的執行個體類型上正確執行分散式訓練,您應該透過設定 VPC 的安全群組來啟用執行個體之間的流量,以允許進出安全群組本身的所有傳入和傳出流量。若要了解如何設定安全群組規則,請參閱《Amazon EC2 使用者指南》中的步驟 1:準備啟用 EFA 的安全群組

選擇下列其中一個主題,以取得如何執行訓練指令碼分散式訓練任務的指示。啟動訓練任務後,您可以使用 Amazon SageMaker Debugger 或 Amazon CloudWatch 監控系統使用率和模型效能。

當您按照下列主題中的指示進一步了解技術詳細資訊時,我們也建議您嘗試開始使用Amazon SageMaker AI 資料平行處理程式庫範例