Kerangka Kerja yang Didukung dan Wilayah AWS - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kerangka Kerja yang Didukung dan Wilayah AWS

Sebelum menggunakan pustaka paralelisme SageMaker model, periksa kerangka kerja dan jenis instance yang didukung, dan tentukan apakah ada cukup kuota di akun Anda dan. AWS Wilayah AWS

catatan

Untuk memeriksa pembaruan terbaru dan catatan rilis perpustakaan, lihat Catatan Rilis Paralel SageMaker Model dalam dokumentasi SageMaker Python SDK.

Kerangka Kerja yang Didukung

Pustaka paralelisme SageMaker model mendukung kerangka pembelajaran mendalam berikut dan tersedia dalam AWS Deep Learning Containers (DLC) atau dapat diunduh sebagai file biner.

PyTorch versi yang didukung oleh SageMaker dan pustaka paralelisme SageMaker model
PyTorch versi SageMaker model versi perpustakaan paralelisme smdistributed-modelparallelURI gambar DLC terintegrasi URL dari file biner**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://. s3.us-west-2.amazonaws.com sagemaker-distributed-model-parallel /pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://. s3.us-west-2.amazonaws.com sagemaker-distributed-model-parallel /pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://. s3.us-west-2.amazonaws.com sagemaker-distributed-model-parallel /pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://. s3.us-west-2.amazonaws.com sagemaker-distributed-model-parallel /pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://. s3.us-west-2.amazonaws.com sagemaker-distributed-model-parallel /pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
v1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
catatan

Pustaka paralelisme SageMaker model v1.6.0 dan yang lebih baru menyediakan fitur tambahan untuk. PyTorch Untuk informasi selengkapnya, lihat Fitur Inti dari Perpustakaan Paralelisme SageMaker Model.

** URL file biner adalah untuk menginstal pustaka paralelisme SageMaker model dalam wadah khusus. Untuk informasi selengkapnya, lihat Buat Container Docker Anda Sendiri dengan Perpustakaan Paralel Model SageMaker Terdistribusi.

TensorFlow versi yang didukung oleh SageMaker dan pustaka paralelisme SageMaker model
TensorFlow versi SageMaker model versi perpustakaan paralelisme smdistributed-modelparallelURI gambar DLC terintegrasi
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

Versi Hugging Face Transformers didukung SageMaker oleh dan perpustakaan paralel data SageMaker terdistribusi

AWS Deep Learning Containers untuk Hugging Face menggunakan SageMaker Wadah Pelatihan PyTorch untuk TensorFlow dan sebagai gambar dasarnya. Untuk mencari versi pustaka Hugging Face Transformers dan PyTorch dipasangkan TensorFlow dan versi, lihat Wadah Wajah Pelukan terbaru dan Versi Wadah Wajah Pelukan Sebelumnya.

Wilayah AWS

Pustaka paralel SageMaker data tersedia di semua Wilayah AWS tempat AWS Deep Learning Containers SageMaker berada dalam layanan. Untuk informasi selengkapnya, lihat Gambar Deep Learning Containers yang Tersedia.

Tipe Instans Yang Didukung

Pustaka paralelisme SageMaker model memerlukan salah satu jenis instance ML berikut.

Jenis instans
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

Untuk spesifikasi jenis instans, lihat bagian Komputasi Akselerasi di halaman Jenis Instans Amazon EC2. Untuk informasi tentang harga instans, lihat SageMakerHarga Amazon.

Jika Anda menemukan pesan galat yang mirip dengan berikut ini, ikuti petunjuk di Minta peningkatan kuota layanan untuk SageMaker sumber daya.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.