Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kerangka kerja yang didukung dan Wilayah AWS
Sebelum menggunakan pustaka paralelisme SageMaker model v2 (SMPv2), periksa kerangka kerja dan jenis instance yang didukung dan tentukan apakah ada cukup kuota di akun Anda dan. AWS Wilayah AWS
catatan
Untuk memeriksa pembaruan terbaru dan catatan rilis perpustakaan, lihatCatatan rilis untuk pustaka paralelisme SageMaker model.
Kerangka kerja yang didukung
SMPv2 mendukung kerangka pembelajaran mendalam berikut dan tersedia melalui wadah SMP Docker dan saluran SMP Conda. Saat Anda menggunakan kelas estimator kerangka kerja di SageMaker SDK Python dan menentukan konfigurasi distribusi untuk SMP menggunakan v2 SageMaker , AI secara otomatis mengambil SMP wadah Docker. Untuk menggunakan SMP v2, kami menyarankan agar Anda selalu SageMaker memperbarui Python SDK di lingkungan pengembangan Anda.
PyTorch versi yang didukung oleh SageMaker pustaka paralelisme model
PyTorch versi | SageMaker model versi perpustakaan paralelisme | SMPGambar Docker URI | SMPGambar enroot URI |
---|---|---|---|
v2.4.1 | smdistributed-modelparallel==v2.7.0 |
658645717510.dkr.ecr. |
https://sagemaker-distributed-model-parallel.s3. |
smdistributed-modelparallel==v2.6.1 |
N/A | ||
smdistributed-modelparallel==v2.6.0 |
N/A | ||
v2.3.1 | smdistributed-modelparallel==v2.5.0 |
658645717510.dkr.ecr. |
N/A |
smdistributed-modelparallel==v2.4.0 |
|||
v2.2.0 | smdistributed-modelparallel==v2.3.0 |
658645717510.dkr.ecr. |
N/A |
smdistributed-modelparallel==v2.2.0 |
|||
v2.1.2 | smdistributed-modelparallel==v2.1.0 |
658645717510.dkr.ecr. |
N/A |
v2.0.1 | smdistributed-modelparallel==v2.0.0 |
658645717510.dkr.ecr. |
N/A |
SMPSaluran Conda
Bucket Amazon S3 berikut adalah saluran Conda publik yang dihosting oleh tim layanan. SMP Jika Anda ingin menginstal pustaka SMP v2 di lingkungan seperti SageMaker HyperPod cluster, gunakan saluran Conda ini untuk menginstal pustaka dengan benar. SMP
https://sagemaker-distributed-model-parallel.s3.
us-west-2
.amazonaws.com/smp-v2/
Untuk informasi selengkapnya tentang saluran Conda secara umum, lihat Saluran
catatan
Untuk menemukan versi sebelumnya dari SMP library v1.x dan pra-paketDLCs, lihat Kerangka Kerja yang Didukung di dokumentasi v1. SMP
Gunakan SMP v2 dengan pustaka sumber terbuka
Pustaka SMP v2 bekerja dengan perpustakaan open source PyTorch berbasis lainnya seperti PyTorch Lightning, Hugging Face Transformers, dan Hugging Face Accelerate, karena v2 kompatibel dengan file. SMP PyTorch FSDP APIs Jika Anda memiliki pertanyaan lebih lanjut tentang penggunaan SMP perpustakaan dengan pustaka pihak ketiga lainnya, hubungi tim SMP layanan dism-model-parallel-feedback@amazon.com
.
Wilayah AWS
SMPv2 tersedia di berikut ini Wilayah AWS. Jika Anda ingin menggunakan gambar SMP Docker URIs atau saluran SMP Conda, periksa daftar berikut dan pilih yang Wilayah AWS cocok dengan milik Anda, dan perbarui gambar URI atau saluran URL yang sesuai.
-
ap-northeast-1
-
ap-northeast-2
-
ap-northeast-3
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ca-sentral-1
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-west-3
-
sa-east-1
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
Tipe instans yang didukung
SMPv2 membutuhkan salah satu dari jenis contoh MS berikut.
Jenis instans |
---|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
ml.p5.48xlarge |
ml.p5e.48xlarge |
Tip
Mulai dari SMP v2.2.0 mendukung PyTorch v2.2.0 dan yang lebih baru, tersedia. Pelatihan presisi campuran dengan FP8 instans P5 menggunakan Transformer Engine
Untuk spesifikasi jenis instans pembelajaran SageMaker mesin secara umum, lihat bagian Komputasi Dipercepat di halaman Jenis EC2 Instans Amazon
Jika Anda menemukan pesan galat yang serupa dengan berikut ini, ikuti petunjuk di Meminta peningkatan kuota dalam Panduan Pengguna Service AWS Quotas.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.