Framework e Regioni AWS supportati - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Framework e Regioni AWS supportati

Prima di utilizzare la libreria di parallelismo dei SageMaker modelli, controlla i framework e i tipi di istanza supportati e determina se ci sono quote sufficienti nel tuo account e. AWS Regione AWS

Nota

Per controllare gli ultimi aggiornamenti e le note di rilascio della libreria, consulta le Note di rilascio di SageMaker Model Parallel nella documentazione di SageMaker Python SDK.

Framework supportati

La libreria di parallelismo dei SageMaker modelli supporta i seguenti framework di deep learning ed è disponibile in AWS Deep Learning Containers (DLC) o scaricabile come file binario.

PyTorch versioni supportate da e dalla libreria di parallelismo dei modelli SageMaker SageMaker

PyTorch versione SageMaker versione della libreria di parallelismo dei modelli smdistributed-modelparallelimmagine integrata DLC URI URLdel file binario**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-linux_x86_64.whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
v1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
Nota

La libreria di parallelismo dei modelli v1.6.0 e successive fornisce funzionalità estese per. SageMaker PyTorch Per ulteriori informazioni, consulta Caratteristiche principali della SageMaker Model Parallelism Library.

** I file binari servono per l'installazione URLs della libreria di parallelismo del SageMaker modello in contenitori personalizzati. Per ulteriori informazioni, consulta Crea il tuo contenitore Docker con la Distributed Model Parallel Library SageMaker .

TensorFlow versioni supportate da SageMaker e dalla libreria di SageMaker parallelismo dei modelli

TensorFlow versione SageMaker versione della libreria di parallelismo dei modelli smdistributed-modelparallelimmagine integrata DLC URI
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

Versioni Hugging Face Transformers supportate da e SageMaker libreria parallela di dati distribuiti SageMaker

I AWS Deep Learning Containers for Hugging Face utilizzano i SageMaker Training Containers per PyTorch e TensorFlow come immagini di base. Per cercare le versioni della libreria Hugging Face Transformers e le versioni abbinate, TensorFlow consulta gli ultimi Hugging Face Containers PyTorch e le versioni precedenti di Hugging Face Container.

Regioni AWS

La libreria parallela di SageMaker dati è disponibile in tutti i paesi in Regioni AWS cui SageMaker sono in servizio i AWS Deep Learning Containers. Per ulteriori informazioni, consulta Immagini dei container di deep learning disponibili.

Tipi di istanze supportati

La libreria di parallelismo dei SageMaker modelli richiede uno dei seguenti tipi di istanze ML.

Tipo di istanza
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

Per le specifiche dei tipi di istanza, consulta la sezione Accelerated Computing nella pagina Amazon EC2 Instance Types. Per informazioni sui prezzi delle istanze, consulta la pagina SageMakerPrezzi di Amazon.

Se hai ricevuto un messaggio di errore simile al seguente, segui le istruzioni in Richiedi un aumento della quota di servizio per SageMaker le risorse.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.