Frameworks et types Régions AWS d'instances pris en charge - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Frameworks et types Régions AWS d'instances pris en charge

Avant d'utiliser la bibliothèque SMDDP ( SageMaker Distributed Data Parallelism), vérifiez quels sont les frameworks ML et les types d'instances pris en charge et si les quotas sont suffisants dans votre compte et. AWS Région AWS

Frameworks pris en charge

Les tableaux suivants présentent les frameworks d'apprentissage profond et leurs versions compatibles avec le SageMaker protocole SMDDP. La bibliothèque SMDDP est disponible dans des conteneurs SageMaker Framework, intégrée dans des conteneurs Docker distribués par la bibliothèque de parallélisme des SageMaker modèles (SMP) v2 ou téléchargeable sous forme de fichier binaire.

Note

Pour consulter les dernières mises à jour et notes de publication de la bibliothèque SMDDP, consultez le. SageMaker notes de mise à jour de la bibliothèque de parallélisme des données

PyTorch

PyTorch version Version de la bibliothèque SMDDP SageMaker Images du conteneur Framework préinstallées avec SMDDP Images Docker SMP préinstallées avec SMDDP URL du fichier binaire**
v2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Actuellement non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
v2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
v2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker Non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker Non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker Non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker Non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker Non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** Les URL des fichiers binaires sont destinées à installer la bibliothèque SMDDP dans des conteneurs personnalisés. Pour plus d’informations, consultez Créez votre propre conteneur Docker avec la bibliothèque de données parallèles SageMaker distribuées.

Note

La bibliothèque SMDDP est disponible Régions AWS là où les conteneurs SageMaker Framework et les images Docker SMP sont en service.

Note

La bibliothèque SMDDP v1.4.0 et versions ultérieures fonctionne comme un backend du parallélisme de données distribué ( PyTorch torch.distributed) (torch.parallel). DistributedDataParallèle). Conformément à cette modification, les API smdistributed suivantes pour le package PyTorch distribué sont devenues obsolètes.

Si vous devez utiliser les versions précédentes de la bibliothèque (v1.3.0 ou antérieure), consultez la documentation archivée sur le parallélisme des données SageMaker distribuées dans la documentation du SDK SageMakerPython.

PyTorch Éclair

La bibliothèque SMDDP est disponible pour PyTorch Lightning dans les conteneurs SageMaker Framework suivants PyTorch et dans les conteneurs Docker SMP.

PyTorch Lightning v2

PyTorch Version Lightning PyTorch version Version de la bibliothèque SMDDP SageMaker Images du conteneur Framework préinstallées avec SMDDP Images Docker SMP préinstallées avec SMDDP URL du fichier binaire**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Actuellement non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Non disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch Lightning v1

PyTorch Version Lightning PyTorch version Version de la bibliothèque SMDDP SageMaker Images du conteneur Framework préinstallées avec SMDDP URL du fichier binaire**

1.7.2

1.7.0

1.6.4

1.6.3

1.5,10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<région>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** Les URL des fichiers binaires sont destinées à installer la bibliothèque SMDDP dans des conteneurs personnalisés. Pour plus d’informations, consultez Créez votre propre conteneur Docker avec la bibliothèque de données parallèles SageMaker distribuées.

Note

PyTorch Lightning et ses bibliothèques d'utilitaires, telles que Lightning Bolts, ne sont pas préinstallés dans les PyTorch DLC. Lorsque vous créez un SageMaker PyTorch estimateur et soumettez une demande de formation à l'étape 2, vous devez fournir les informations nécessaires à l'installation pytorch-lightning et requirements.txt à l'insérer lightning-bolts dans le conteneur de SageMaker PyTorch formation.

# requirements.txt pytorch-lightning lightning-bolts

Pour plus d'informations sur la spécification du répertoire source dans lequel placer le requirements.txt fichier avec votre script d'entraînement et la soumission d'une tâche, consultez la section Utilisation de bibliothèques tierces dans la documentation du SDK Amazon SageMaker Python.

Hugging Face Transformers

Les AWS Deep Learning Containers for Hugging Face utilisent SageMaker les Training Containers PyTorch pour TensorFlow et comme images de base. Pour consulter les versions et les versions PyTorch associées de la bibliothèque Hugging Face Transformers, consultez les dernières versions de Hugging Face Containers TensorFlow et les versions précédentes de Hugging Face Container.

TensorFlow (obsolète)

Important

La bibliothèque SMDDP a cessé de prendre en charge les DLC TensorFlow et n'est plus disponible dans ceux-ci depuis la TensorFlow version 2.11.0. Le tableau suivant répertorie les DLC précédents pour lesquels la TensorFlow bibliothèque SMDDP est installée.

TensorFlow version Version de la bibliothèque SMDDP
2,9.1, 2.10.1, 2,11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

Régions AWS

La bibliothèque SMDDP est disponible dans tous les Régions AWS endroits où les images AWS Deep Learning Containers SageMaker et SMP Docker sont en service.

Types d’instance pris en charge

La bibliothèque SMDDP nécessite l'un des types d'instance suivants.

Type d’instance
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
Astuce

Pour exécuter correctement la formation distribuée sur les types d'instances compatibles EFA, vous devez activer le trafic entre les instances en configurant le groupe de sécurité de votre VPC afin d'autoriser tout le trafic entrant et sortant à destination et en provenance du groupe de sécurité lui-même. Pour savoir comment configurer les règles du groupe de sécurité, consultez Étape 1 : Préparation d'un groupe de sécurité compatible EFA dans le guide de l'utilisateur Amazon EC2.

Important

* La bibliothèque SMDDP a cessé de prendre en charge l'optimisation de ses opérations de communication collective sur les instances P3. Bien que vous puissiez toujours utiliser le AllReduce collectif optimisé SMDDP sur les ml.p3dn.24xlarge instances, il n'y aura aucune autre assistance au développement pour améliorer les performances sur ce type d'instance. Notez que le AllGather collectif optimisé SMDDP n'est disponible que pour les instances P4.

Pour les spécifications des types d'instances, consultez la section Calcul accéléré sur la page Types d'instances Amazon EC2. Pour plus d'informations sur la tarification des instances, consultez Amazon SageMaker Pricing.

Si vous avez rencontré un message d'erreur similaire au suivant, suivez les instructions de la section Demander une augmentation du quota de service pour les SageMaker ressources.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.