支持的框架、AWS 区域和实例类型 - Amazon SageMaker

支持的框架、AWS 区域和实例类型

在使用 SageMaker 数据并行性库之前,请检查您的 AWS 账户和 AWS 区域中支持的 ML 框架和实例类型,以及您是否有足够的配额。

支持的框架

下表显示了 SageMaker 和 SageMaker 数据并行性库支持的深度学习框架及其版本。SageMaker 模型并行性库可在 AWS Deep Learning Containers (DLC) 中使用,也可以作为二进制文件下载。

注意

要查看库的最新更新和发行说明,另请参阅 SageMaker Python SDK 文档中的 SageMaker 数据并行发行说明

PyTorch

PyTorch 版本 SageMaker 数据并行性库版本 smdistributed-dataparallel 集成映像 URI 二进制文件的 URL**
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-dataparallel==v1.4.0 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.10.2/cu113/2022-02-18/smdistributed_dataparallel-1.4.0-cp38-cp38-linux_x86_64.whl
v1.9.1 smdistributed-dataparallel==v1.2.0

763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.9.0/cu111/2021-08-13/smdistributed_dataparallel-1.2.0-cp38-cp38-linux_x86_64.whl
v1.8.1 smdistributed-dataparallel==v1.2.3 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.8.1/cu111/2021-12-13/smdistributed_dataparallel-1.2.3-cp36-cp36m-linux_x86_64.whl
v1.7.1 smdistributed-dataparallel==v1.0.0

763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.7.1-gpu-py36-cu110-ubuntu18.04

https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.7.1/cu110/2021-01-26/smdistributed_dataparallel-1.0.0-cp36-cp36m-linux_x86_64.whl
v1.6.0 smdistributed-dataparallel==v1.0.0

763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.6.0-gpu-py36-cu110-ubuntu18.04

https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.6.0/cu110/2021-01-14/smdistributed_dataparallel-1.0.0-cp36-cp36m-linux_x86_64.whl
注意

SageMaker 数据并行性库 v1.4.0 及更高版本可用作 PyTorch 分布式的后端。由于变更,PyTorch 分布式软件包的以下 smdistributed API 已弃用。

如果您需要使用该库的早期版本(v1.3.0 或更早版本),请参阅 SageMaker Python SDK 文档中的已存档 SageMaker 数据并行性库文档

** 二进制文件的 URL 用于在自定义容器中安装 SageMaker 数据并行性库。有关更多信息,请参阅 使用 SageMaker 分布式数据并行库创建您自己的 Docker 容器

PyTorch Lightning

PyTorch Lightning 版本 PyTorch 版本 SageMaker 数据并行性库版本 smdistributed-dataparallel 集成映像 URI 二进制文件的 URL**

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
注意

PyTorch DLC 中未预安装 PyTorch Lightning 及其实用程序库(例如 Lightning Bolts)。当您在步骤 2 中构造 SageMaker PyTorch 估算器并提交训练作业请求时,您需要在 SageMaker PyTorch 训练容器中提供 requirements.txt 以安装 pytorch-lightninglightning-bolts

# requirements.txt pytorch-lightning lightning-bolts

有关指定放置 requirements.txt 文件以及训练脚本和作业提交的源目录的更多信息,请参阅 Amazon SageMaker Python SDK 文档中的使用第三方库

TensorFlow

TensorFlow 版本 SageMaker 数据并行性库版本 smdistributed-dataparallel 集成映像 URI
2.9.1 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<区域>.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemaker
2.8.0 smdistributed-dataparallel==v1.3.0 763104351884.dkr.ecr.<区域>.amazonaws.com/tensorflow-training:2.8.0-gpu-py39-cu112-ubuntu20.04-sagemaker
2.7.1 smdistributed-dataparallel==v1.3.0

763104351884.dkr.ecr.<区域>.amazonaws.com/tensorflow-training:2.7.1-gpu-py38-cu112-ubuntu20.04-sagemaker

2.6.2 smdistributed-dataparallel==v1.2.1

763104351884.dkr.ecr.<区域>.amazonaws.com/tensorflow-training:2.6.2-gpu-py38-cu112-ubuntu20.04

2.5.1 smdistributed-dataparallel==v1.2.1

763104351884.dkr.ecr.<区域>.amazonaws.com/tensorflow-inference:2.5.1-gpu-py37-cu112-ubuntu18.04

2.4.1 smdistributed-dataparallel==v1.2.0

763104351884.dkr.ecr.<区域>.amazonaws.com/tensorflow-training:2.4.1-gpu-py37-cu110-ubuntu18.04

2.3.2 smdistributed-dataparallel==v1.0.0

763104351884.dkr.ecr.<区域>.amazonaws.com/tensorflow-training:2.3.2-gpu-py37-cu110-ubuntu18.04

Hugging Face Transformers

适用于 Hugging Face 的 AWS Deep Learning Containers 使用适用于 PyTorch 和 TensorFlow 的 SageMaker 训练容器作为其基础映像。要查找 Hugging Face Transformers 库版本以及可以结合使用的 PyTorch 和 TensorFlow 版本,请参阅最新的 Hugging Face 容器以前的 Hugging Face 容器版本

AWS 区域

在提供适用于 SageMaker 的 AWS Deep Learning Containers 的所有 AWS 区域中,均可使用 SageMaker 数据并行性库。有关更多信息,请参阅可用的深度学习容器映像

支持的实例类型

SageMaker 数据并行性库需要以下 ML 实例类型之一。

实例类型
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

有关实例类型的规格,请参阅 Amazon EC2 实例类型页面中的加速计算部分。有关实例定价的信息,请参阅 Amazon SageMaker 定价

在遇到类似于以下内容的错误消息时,请按照请求提高 SageMaker 资源的服务限额中的说明操作。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.