Kerangka kerja yang didukung dan Wilayah AWS - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kerangka kerja yang didukung dan Wilayah AWS

Sebelum menggunakan pustaka paralelisme SageMaker model v2 (SMPv2), periksa kerangka kerja dan jenis instance yang didukung dan tentukan apakah ada cukup kuota di akun Anda dan. AWS Wilayah AWS

catatan

Untuk memeriksa pembaruan terbaru dan catatan rilis perpustakaan, lihatCatatan rilis untuk pustaka paralelisme SageMaker model.

Kerangka kerja yang didukung

SMPv2 mendukung kerangka pembelajaran mendalam berikut dan tersedia melalui wadah SMP Docker dan saluran SMP Conda. Saat Anda menggunakan kelas estimator kerangka kerja di SageMaker SDK Python dan menentukan konfigurasi distribusi untuk SMP menggunakan v2 SageMaker , AI secara otomatis mengambil SMP wadah Docker. Untuk menggunakan SMP v2, kami menyarankan agar Anda selalu SageMaker memperbarui Python SDK di lingkungan pengembangan Anda.

PyTorch versi yang didukung oleh SageMaker pustaka paralelisme model

PyTorch versi SageMaker model versi perpustakaan paralelisme SMPGambar Docker URI SMPGambar enroot URI
v2.4.1 smdistributed-modelparallel==v2.7.0 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh
smdistributed-modelparallel==v2.6.1 N/A
smdistributed-modelparallel==v2.6.0 N/A
v2.3.1 smdistributed-modelparallel==v2.5.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121 N/A
smdistributed-modelparallel==v2.4.0
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 N/A
smdistributed-modelparallel==v2.2.0
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 N/A
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121 N/A

SMPSaluran Conda

Bucket Amazon S3 berikut adalah saluran Conda publik yang dihosting oleh tim layanan. SMP Jika Anda ingin menginstal pustaka SMP v2 di lingkungan seperti SageMaker HyperPod cluster, gunakan saluran Conda ini untuk menginstal pustaka dengan benar. SMP

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Untuk informasi selengkapnya tentang saluran Conda secara umum, lihat Saluran di dokumentasi Conda.

catatan

Untuk menemukan versi sebelumnya dari SMP library v1.x dan pra-paketDLCs, lihat Kerangka Kerja yang Didukung di dokumentasi v1. SMP

Gunakan SMP v2 dengan pustaka sumber terbuka

Pustaka SMP v2 bekerja dengan perpustakaan open source PyTorch berbasis lainnya seperti PyTorch Lightning, Hugging Face Transformers, dan Hugging Face Accelerate, karena v2 kompatibel dengan file. SMP PyTorch FSDP APIs Jika Anda memiliki pertanyaan lebih lanjut tentang penggunaan SMP perpustakaan dengan pustaka pihak ketiga lainnya, hubungi tim SMP layanan dism-model-parallel-feedback@amazon.com.

Wilayah AWS

SMPv2 tersedia di berikut ini Wilayah AWS. Jika Anda ingin menggunakan gambar SMP Docker URIs atau saluran SMP Conda, periksa daftar berikut dan pilih yang Wilayah AWS cocok dengan milik Anda, dan perbarui gambar URI atau saluran URL yang sesuai.

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-sentral-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

Tipe instans yang didukung

SMPv2 membutuhkan salah satu dari jenis contoh MS berikut.

Jenis instans
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
ml.p5e.48xlarge
Tip

Mulai dari SMP v2.2.0 mendukung PyTorch v2.2.0 dan yang lebih baru, tersedia. Pelatihan presisi campuran dengan FP8 instans P5 menggunakan Transformer Engine

Untuk spesifikasi jenis instans pembelajaran SageMaker mesin secara umum, lihat bagian Komputasi Dipercepat di halaman Jenis EC2 Instans Amazon. Untuk informasi tentang harga instans, lihat Harga Amazon SageMaker AI.

Jika Anda menemukan pesan galat yang serupa dengan berikut ini, ikuti petunjuk di Meminta peningkatan kuota dalam Panduan Pengguna Service AWS Quotas.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.