支持的框架和 AWS 区域

在使用 SageMaker 模型并行度库 v2 (SMP v2) 之前，请检查支持的框架和实例类型，并确定您的账户中是否有足够的配额和。 AWS AWS 区域

注意

要查看库的最新更新和版本说明，请参阅 SageMaker 模型并行度库的发行说明。

支持的框架

SMP v2 支持以下深度学习框架，并且可通过 SMP Docker 容器和 SMP Conda 通道使用。当你使用 Pyth SageMaker on SDK 中的框架估算器类并指定分发配置以使用 SMP v2 时， SageMaker AI 会自动获取 SMP Docker 容器。要使用 SMP v2，我们建议您在开发环境中始终保持 P SageMaker ython SDK 的最新版本。

PyTorch SageMaker 模型并行度库支持的版本

PyTorch 版本	SageMaker 模型并行度库版本	SMP Docker 映像 URI	SMP Enroot 镜像 URI
v2.4.1	`smdistributed-modelparallel==v2.7.0`	`658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121`	`https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh`
	`smdistributed-modelparallel==v2.6.1`		不适用
	`smdistributed-modelparallel==v2.6.0`		不适用
v2.3.1	`smdistributed-modelparallel==v2.5.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121`	不适用
v2.3.1	`smdistributed-modelparallel==v2.4.0`		不适用
v2.2.0	`smdistributed-modelparallel==v2.3.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121`	不适用
v2.2.0	`smdistributed-modelparallel==v2.2.0`		不适用
v2.1.2	`smdistributed-modelparallel==v2.1.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121`	不适用
v2.0.1	`smdistributed-modelparallel==v2.0.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121`	不适用

SMP Conda 通道

以下 Amazon S3 存储桶是 SMP 服务团队托管的公共 Conda 频道。如果要在 SageMaker HyperPod 群集等环境中安装 SMP v2 库，请使用此 Conda 通道正确安装 SMP 库。


https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

有关 Conda 通道的更多信息，请参阅 Conda 文档中的通道。

注意

要查找 SMP 库 v1.x 和预打包版本的先前版本 DLCs，请参阅 SMP v1 支持的框架文档中的。

使用 SMP v2 和开放源代码库

SMP v2 库可与其他 PyTorch基于开源库配合使用，例如 L PyTorch ightning、Hugging Face Transformers 和 Hugging Face Accelerate，因为 SMP v2 与 FSDP 兼容。 PyTorch APIs如果您对将 SMP 库与其他第三方库一起使用还有更多疑问，请联系 SMP 服务团队，电话是 sm-model-parallel-feedback@amazon.com。

AWS 区域

SMP v2 在以下版本中可用。 AWS 区域如果你想使用 SMP Docker 镜像 URIs 或 SMP Conda 频道，请查看以下列表并选择与你的 AWS 区域相匹配的镜像，然后相应地更新图片 URI 或频道 URL。

ap-northeast-1
ap-northeast-2
ap-northeast-3
ap-south-1
ap-southeast-1
ap-southeast-2
ca-central-1
eu-central-1
eu-north-1
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-1
us-west-2

支持的实例类型

SMP v2 需要以下 ML 实例类型之一。

实例类型
`ml.p4d.24xlarge`
`ml.p4de.24xlarge`
`ml.p5.48xlarge`
`ml.p5e.48xlarge`

提示

从 SMP v2.2.0 开始，支持 PyTorch v2.2.0 及更高版本，已上市。使用变形引擎 FP8 在 P5 实例上进行混合精度训练

有关 SageMaker 机器学习实例类型的一般规格，请参阅 Amazon EC2 实例类型页面的加速计算部分。有关实例定价的信息，请参阅 Amazon A SageMaker I 定价。

如果您遇到类似以下的错误消息，请按照《AWS 服务配额用户指南》中请求提高配额的说明进行操作。


ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
    the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
    for training job usage' is 0 Instances, with current utilization of 0 Instances
    and a request delta of 1 Instances.
    Please contact AWS support to request an increase for this limit.

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

模型并行性概念

使用 SMP v2