サポートされるフレームワークと AWS リージョン - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

サポートされるフレームワークと AWS リージョン

SageMaker モデル並列処理ライブラリ v2 (SMP v2) を使用する前に、サポートされているフレームワークとインスタンスタイプを確認し、 AWS アカウント と に十分なクォータがあるかどうかを確認します AWS リージョン。

注記

ライブラリの最新の更新とリリースノートを確認するには、「」を参照してください SageMaker モデル並列処理ライブラリのリリースノート

サポートされるフレームワーク

SMP v2 は、以下の深層学習フレームワークをサポートし、SMP Docker コンテナと SMP Conda チャネルを通じて利用できます。 SageMaker Python SDK でフレームワーク推定器クラスを使用し、SMP v2 を使用するようにディストリビューション設定を指定すると、 は SMP Docker コンテナ SageMaker を自動的に取得します。SMP v2 を使用するには、開発環境で常に SageMaker Python SDK を最新の状態に保つことをお勧めします。

PyTorch SageMaker モデル並列処理ライブラリがサポートする バージョン

PyTorch バージョン SageMaker モデル並列処理ライブラリのバージョン SMP Docker イメージ URI
v2.3.1 smdistributed-modelparallel==v2.4.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
smdistributed-modelparallel==v2.2.0 利用不可。下位互換性がある SMP v2.3.0 のイメージを使用します。
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121

SMP Conda チャンネル

次の S3 バケットは、SMP サービスチームがホストするパブリック Conda チャネルです。 SageMaker HyperPod クラスターなどの環境に SMP v2 ライブラリをインストールする場合は、この Conda チャンネルを使用して SMP ライブラリを適切にインストールします。

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Conda チャンネル全般の詳細については、Conda ドキュメント「チャネル」を参照してください。

注記

SMP ライブラリ v1.x の以前のバージョンとパッケージ化された DLCs「」を参照してください。 サポートされるフレームワーク

オープンソースライブラリで SMP v2 を使用する

SMP v2 ライブラリは、 PyTorch Lightning、Hugging Face Transformers、Hugging Face Accelerate などの他の PyTorchベースのオープンソースライブラリと連携します。これは、SMP v2 が PyTorch FSDP APIs。他のサードパーティーライブラリで SMP ライブラリを使用する方法についてさらに質問がある場合は、 の SMP サービスチームにお問い合わせくださいsm-model-parallel-feedback@amazon.com

AWS リージョン

SMP v2 は、次の で使用できます AWS リージョン。SMP Docker イメージ URIs または SMP Conda チャンネルを使用する場合は、次のリストをチェックして AWS リージョン 、一致する を選択し、それに応じてイメージ URI またはチャンネル URL を更新します。

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-central-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

サポートされるインスタンスタイプ

SMP v2 には、次のいずれかの ML インスタンスタイプが必要です。

インスタンスタイプ
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
ヒント

v2.2.0 以降をサポートする SMP PyTorch v2.2.0 以降では、 Transformer Engine を使用した P5 インスタンスでの FP8 による混合精度トレーニング を使用できます。

SageMaker 機械学習インスタンスタイプの一般的な仕様については、Amazon EC2 インスタンスタイプ」ページの「高速コンピューティング」セクションを参照してください。インスタンスの料金の詳細については、「Amazon SageMaker の料金」を参照してください。

次のようなエラーメッセージが表示された場合は、「Service Quotas ユーザーガイド」の「クォータの引き上げをリクエストする」の指示に従ってください。 AWS Service Quotas

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.