サポートされるフレームワークと AWS リージョン - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

サポートされるフレームワークと AWS リージョン

SageMaker モデル並列処理ライブラリを使用する前に、サポートされているフレームワークとインスタンスタイプを確認し、 AWS アカウントと に十分なクォータがあるかどうかを確認します AWS リージョン。

注記

ライブラリの最新の更新を確認するには、「SageMaker Python SDK ドキュメント」の「SageMaker Model Parallel Release Notes」を参照してください。

サポートされるフレームワーク

SageMaker モデル並列処理ライブラリは、次の深層学習フレームワークをサポートしており、 AWS 深層学習コンテナ (DLC) で利用でき、バイナリファイルとしてダウンロードできます。

SageMaker AI と SageMaker モデル並列処理ライブラリでサポートされている PyTorch バージョン

PyTorch バージョン SageMaker モデル並列処理ライブラリバージョン smdistributed-modelparallel 統合 DLC イメージ URI バイナリファイルの URL**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
v1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
注記

SageMaker モデル並列処理ライブラリ v1.6.0 以降では、PyTorch の拡張機能が提供されています。詳細については、「SageMaker モデル並列処理ライブラリの主要機能」を参照してください。

** バイナリファイルの URL は、SageMaker モデル並列処理ライブラリをカスタムコンテナにインストールするためのものです。詳細については、「SageMaker 分散モデル並列ライブラリを使用した独自の Docker コンテナの作成」を参照してください。

SageMaker AI と SageMaker モデル並列処理ライブラリでサポートされている TensorFlow バージョン

TensorFlow バージョン SageMaker モデル並列処理ライブラリバージョン smdistributed-modelparallel 統合 DLC イメージ URI
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

SageMaker AI と SageMaker 分散データ並列ライブラリでサポートされている Hugging Face Transformers のバージョン

Hugging Face の AWS 深層学習コンテナは、PyTorch と TensorFlow の SageMaker トレーニングコンテナをベースイメージとして使用します。Hugging Face Transformers ライブラリのバージョンとペアになる PyTorch と TensorFlow のバージョンを調べるには、最新の Hugging Face コンテナ以前の Hugging Face コンテナバージョンを参照してください。

AWS リージョン

SageMaker データ並列ライブラリは、SageMaker 用 Deep Learning Containers AWS リージョン が稼働しているすべての で使用できます。 AWS SageMaker 詳細については、「Available Deep Learning Containers Images」を参照してください。

サポートされるインスタンスタイプ

SageMaker モデル並列処理ライブラリには、次の ML インスタンスタイプのいずれかが必要です。

インスタンスタイプ
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

インスタンスタイプの仕様については、「Amazon EC2 インスタンスタイプ」ページ「高速コンピューティング」のセクションを参照してください。インスタンスの料金の詳細については、Amazon SageMakerの料金」を参照してください。

次のようなエラーメッセージが表示された場合は、SageMaker AI リソースのサービスクォータの引き上げをリクエストする」の手順に従います。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.