支援的架構與 AWS 區域 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

支援的架構與 AWS 區域

在使用 SageMaker 模型平行程式庫 v2 (SMP v2) 之前,請檢查支援的架構和執行個體類型,並判斷您的 AWS 帳戶和是否有足夠的配額。 AWS 區域

注意

若要查看程式庫的最新更新和版本說明,請參閱 SageMaker 模型平行程式庫的版本說明

支援的架構

SMP v2 支援下列深度學習架構,並可透過 SMP Docker 容器和 SMP Conda 通道取得。當您在 SageMaker Python SDK 中使用架構估算器類別,並指定要使用 SMP v2 的散佈組態時, SageMaker 會自動取得 SMP 泊塢視窗容器。若要使用 SMP v2,我們建議您始終在開發環境中將 SageMaker Python SDK 保持在最新狀態。

PyTorch SageMaker 模型平行程式庫支援的版本

PyTorch 版本 SageMaker 模型平行程式庫版本 SMP 泊塢視窗圖片 URI
v2.3.1 smdistributed-modelparallel==v2.4.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
V2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
smdistributed-modelparallel==v2.2.0 不可用。使用向下相容的 SMP v2.3.0 的影像。
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121

SMP 康達通道

下列 S3 儲存貯體是 SMP 服務團隊所主控的公用 Conda 通道。如果您要在 SageMaker HyperPod 叢集等環境中安裝 SMP v2 程式庫,請使用此 Conda 通道來正確安裝 SMP 程式庫。

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

如需一般 Conda 頻道的詳細資訊,請參閱 Conda 文件中的頻道

注意

若要尋找先前版本的 SMP 程式庫 v1.x 和預先封裝的 DLC,請參閱 SMP v1 說明文件支援的架構中的。

搭配開放原始碼程式庫使用 SMP v2

SMP v2 程式庫可與其他 PyTorch基礎的開放原始碼程式庫搭配使用,例如 PyTorch 閃電、擁 Hugging Face 變壓器和擁抱面加速,因為 SMP v2 與 FSDP API 相容。 PyTorch 如果您對於將 SMP 程式庫與其他第三方程式庫搭配使用有任何疑問,請聯絡 SMP 服務團隊:。sm-model-parallel-feedback@amazon.com

AWS 區域

SMP v2 可在下列各項 AWS 區域中使用。如果您想使用 SMP Docker 映像 URI 或 SMP Conda 通道,請檢查以下列表並選擇與您的 AWS 區域 匹配項,然後相應地更新圖像 URI 或頻道 URL。

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-central-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

支援的執行個體類型

SMP v2 需要下列其中一種 ML 執行個體類型。

執行個體類型
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
提示

從支援 v2.2.0 及更新版本的 SMP PyTorch v2.2.0 開始,可供使用。使用變壓器引擎在 P5 執行個體上搭配 FP8 進行混合精準訓練

如需一般 SageMaker 機器學習執行個體類型的規格,請參閱 Amazon EC2 執行個體類型頁面中的「加速運算」一節。如需執行個體定價的相關資訊,請參閱 Amazon SageMaker 定價

如果您遇到類似下列內容的錯誤訊息,請依照 AWS Service Quotas 使用指南中的要求增加配額中的指示進行。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.