支持的框架 AWS 区域、和实例类型 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

支持的框架 AWS 区域、和实例类型

在使用 SageMaker AI 分布式数据并行度 (SMDDP) 库之前,请检查支持的机器学习框架和实例类型以及您的账户中是否有足够的配额,以及。 AWS AWS 区域

支持的框架

下表显示了 SageMaker AI 和 SMDDP 支持的深度学习框架及其版本。SMDDP 库可在 SageMaker AI 框架容器中使用,也可以集成在 SageMaker 模型并行度 (SMP) 库 v2 分发的 Docker 容器中,也可以作为二进制文件下载。

注意

要查看 SMDDP 库的最新更新和版本说明,请参阅 SageMaker AI 数据并行度库发行说明

PyTorch

PyTorch 版本 SMDDP 库版本 SageMaker 预装了 SMDDP 的 AI 框架容器镜像 预装了 SMDDP 的 SMP Docker 映像 二进制文件的 URL**
v2.3.1 smdistributed-dataparallel==v2.5.0 不可用 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl
v2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker 当前无可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
v2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
v2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker 不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker 不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker 不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker 不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker 不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker 不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** 二进制文件用于在自定义容器中安装 SMDDP 库。 URLs 有关更多信息,请参阅 使用 SageMaker AI 分布式数据并行库创建自己的 Docker 容器

注意

SMDDP 库可在使用 SageMaker AI 框架容器SMP Docker 镜像 AWS 区域的地方使用。

注意

SMDDP 库 v1.4.0 及更高版本可用作 PyTorch 分布式(torch.distributed)数据并行性(torch.parallel)的后端。 DistributedDataParallel)。根据更改,已弃用以下 smdistri APIs bute PyTorch d 的分布式软件包。

如果您需要使用该库的早期版本(v1.3.0 或更早版本),请参阅 AI SageMaker Python SDK 文档中存档的 SageMaker AI 分布式数据并行性文档

PyTorch 闪电

SMDDP 库适用于以下 SageMaker AI 框架容器 PyTorch 和 SMP Docker 容器中的 L PyTorch ightning。

PyTorch 闪电 v2

PyTorch 闪电版 PyTorch 版本 SMDDP 库版本 SageMaker 预装了 SMDDP 的 AI 框架容器镜像 预装了 SMDDP 的 SMP Docker 映像 二进制文件的 URL**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker 当前无可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker 不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch 闪电 v1

PyTorch 闪电版 PyTorch 版本 SMDDP 库版本 SageMaker 预装了 SMDDP 的 AI 框架容器镜像 二进制文件的 URL**

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr。 <region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** 二进制文件用于在自定义容器中安装 SMDDP 库。 URLs 有关更多信息,请参阅 使用 SageMaker AI 分布式数据并行库创建自己的 Docker 容器

注意

PyTorch Lightning 及其实用程序库(例如 Lightning Bolts)未预装在。 PyTorch DLCs在步骤 2 中构建 A SageMaker I PyTorch 估算器并提交训练任务请求时,需要在 SageMaker AI PyTorch 训练requirements.txt容器lightning-bolts中提供安装pytorch-lightning和。

# requirements.txt pytorch-lightning lightning-bolts

有关指定存放requirements.txt文件以及训练脚本和作业提交的源目录的更多信息,请参阅 Amazon A SageMaker I Python SDK 文档中的使用第三方库

Hugging Face Transformers

适用于 Hu AWS gging Face 的 Deep Learning Contain PyTorch er TensorFlow s 使用 SageMaker 训练容器作为基础图像。要查找 Hugging Face Transformers 库版本以及 PyTorch 配对版本 TensorFlow 和版本,请查看最新的 Hugging Face 容器和之前的 Hu ggin g Fac e 容器版本。

TensorFlow(已淘汰)

重要

在 v2.11.0 之后,SMDDP 库已停止支持, TensorFlow 并且在 DLCs v2.11.0 TensorFlow 之后不再可用。下表列出了之前安装 DLCs 了 SMDDP 库的。 TensorFlow

TensorFlow 版本 SMDDP 库版本
2.9.1、2.10.1、2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

AWS 区域

SMDDP 库可在所有使用 SageMaker 人工智能的 Deep Learning C AWS ontain ers 和 SMP Docker 镜像 AWS 区域的地方使用。

支持的实例类型

SMDDP 库需要以下实例类型之一。

实例类型
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
提示

要在启用 EFA 的实例类型上正确运行分布式训练,您应该通过设置 VPC 的安全组来启用实例之间的流量,允许所有进出安全组的流量。要了解如何设置安全组规则,请参阅 A mazon EC2 用户指南中的步骤 1:准备启用 EFA 的安全组

重要

* SMDDP 库已停止支持在 P3 实例上优化其集体通信操作。虽然您仍然可以在 ml.p3dn.24xlarge 实例上使用 SMDDP 优化的 AllReduce 集合,但将不再提供进一步的开发支持,以提高此实例类型的性能。请注意,SMDDP 优化的 AllGather 集合仅适用于 P4 实例。

有关实例类型的规格,请参阅 Amazon EC2 实例类型页面加速计算部分。有关实例定价的信息,请参阅 Amazon A SageMaker I 定价

如果您遇到类似以下内容的错误消息,请按照请求增加 SageMaker AI 资源的服务配额中的说明进行操作。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.