Modèle parallèle distribué de SageMaker - Amazon SageMaker

Modèle parallèle distribué de SageMaker

Utilisez la bibliothèque de modèles parallèles distribués d'Amazon SageMaker pour entraîner de grands modèles de deep learning difficiles à entraîner en raison de limitations de mémoire GPU. La bibliothèque divise un modèle automatiquement et efficacement sur plusieurs GPU et instances. À l'aide de la bibliothèque, vous pouvez obtenir une précision de prédiction cible plus rapidement en entraînant efficacement des modèles DL plus volumineux avec des milliards ou des trillions de paramètres.

Vous pouvez utiliser la bibliothèque pour partitionner automatiquement vos propres modèles TensorFlow et PyTorch sur plusieurs GPU et plusieurs nœuds avec des modifications de code minimales. Vous pouvez accéder à l'API de la bibliothèque via le kit SDK Python SageMaker.

Consultez les sections suivantes pour en savoir plus sur le parallélisme des modèles et la bibliothèque de modèles parallèles SageMaker. La documentation concernant l'API de cette bibliothèque se trouve sous Distributed Training APIs dans la documentation relative au kit SDK Python SageMaker.

Pour suivre les dernières mises à jour de la bibliothèque, consultez les notes de version de modèles parallèles distribués SageMaker dans la documentation relative au kit SDK Python SageMaker.