Modèle parallèle distribué de SageMaker
Utilisez la bibliothèque de modèles parallèles distribués d'Amazon SageMaker pour entraîner de grands modèles de deep learning difficiles à entraîner en raison de limitations de mémoire GPU. La bibliothèque divise un modèle automatiquement et efficacement sur plusieurs GPU et instances. À l'aide de la bibliothèque, vous pouvez obtenir une précision de prédiction cible plus rapidement en entraînant efficacement des modèles DL plus volumineux avec des milliards ou des trillions de paramètres.
Vous pouvez utiliser la bibliothèque pour partitionner automatiquement vos propres modèles TensorFlow et PyTorch sur plusieurs GPU et plusieurs nœuds avec des modifications de code minimales. Vous pouvez accéder à l'API de la bibliothèque via le kit SDK Python SageMaker.
Consultez les sections suivantes pour en savoir plus sur le parallélisme des modèles et la bibliothèque de modèles parallèles SageMaker. La documentation concernant l'API de cette bibliothèque se trouve sous Distributed Training APIs
Pour suivre les dernières mises à jour de la bibliothèque, consultez les notes de version de modèles parallèles distribués SageMaker
Rubriques
- Présentation du parallélisme des modèles
- Principales fonctions de la bibliothèque de parallélisme de modèles SageMaker
- Exécuter une tâche d'entraînement distribués SageMaker avec un parallélisme de modèles
- Fonctions étendues de la bibliothèque de parallélisme de modèles SageMaker pour PyTorch
- Bonnes pratiques concernant le parallélisme des modèles distribués SageMaker
- Conseils et pièges relatifs à la configuration pour la bibliothèque de modèles parallèles distribués SageMaker
- Dépannage pour les modèles parallèles