Exécutez un travail de formation SageMaker distribué avec Model Parallelism

Apprenez à exécuter une tâche d'entraînement parallèle à un modèle à partir de votre propre script d'entraînement à l'aide du SDK SageMaker Python associé à la bibliothèque de parallélisme des SageMaker modèles.

Il existe trois scénarios d'utilisation pour exécuter une tâche de SageMaker formation.

Vous pouvez utiliser l'un des conteneurs d'apprentissage AWS profond prédéfinis pour TensorFlow et PyTorch. Cette option est recommandée si c'est la première fois que vous utilisez la bibliothèque de parallélisme de modèles. Pour trouver un didacticiel expliquant comment exécuter une tâche d'entraînement parallèle sur des SageMaker modèles, consultez les exemples de carnets de notes présentés lors de l'PyTorch entraînement avec la bibliothèque de parallélisme de modèles d'Amazon SageMaker AI.
Vous pouvez étendre les conteneurs prédéfinis pour gérer toute exigence fonctionnelle supplémentaire pour votre algorithme ou modèle que l'image SageMaker Docker prédéfinie ne prend pas en charge. Pour apprendre comment étendre un conteneur préconçu, consultez Extension d'un conteneur préconçu.
Vous pouvez adapter votre propre conteneur Docker pour qu'il fonctionne avec l' SageMaker IA à l'aide de la boîte à outils de SageMaker formation. Pour obtenir un exemple, consultez Adaptation de votre propre conteneur d'entraînement.

Pour les options 2 et 3 de la liste précédente, consultez Étendre un conteneur Docker prédéfini qui contient SageMaker la bibliothèque parallèle de modèles distribués pour savoir comment installer la bibliothèque de modèles parallèles dans un conteneur Docker étendu ou personnalisé.

Dans tous les cas, vous lancez votre tâche de formation en configurant un PyTorch estimateur SageMaker TensorFlow ou un estimateur pour activer la bibliothèque. Pour en savoir plus, consultez les rubriques suivantes.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Prise en charge de FlashAttention

Étape 1 : modifier votre propre script d'entraînement