Bibliothèque de données parallèles distribuées de SageMaker - Amazon SageMaker

Bibliothèque de données parallèles distribuées de SageMaker

Important

Pour utiliser de nouvelles fonctions avec une instance de bloc-notes ou une application Studio existante, redémarrez l'instance de bloc-notes ou l'application Studio afin d'obtenir les dernières mises à jour.

La bibliothèque de données parallèles distribuées de SageMaker étend les capacités d'entraînement de SageMaker aux modèles de deep learning avec une efficacité de mise à l'échelle quasi linéaire, ce qui réduit la durée d'entraînement avec un minimum de modifications de code.

  • La bibliothèque optimise votre tâche d'entraînement pour l'infrastructure réseau AWS et la topologie d'instance Amazon EC2.

  • La bibliothèque tire parti des mises à jour de gradient pour communiquer entre les nœuds avec un algorithme AllReduce personnalisé.

Lorsqu'un modèle est entraîné sur une grande quantité de données, les professionnels du machine learning choisissent souvent l'entraînement distribué pour réduire la durée d'entraînement. Lorsque tout repose sur le temps, l'entreprise doit terminer l'entraînement le plus rapidement possible, ou du moins dans un délai limité. Ensuite, l'entraînement distribué est mis à l'échelle pour utiliser un cluster de plusieurs nœuds et pas seulement plusieurs GPU dans une instance de calcul, mais plusieurs instances avec plusieurs GPU. À mesure que la taille du cluster augmente, les performances baissent de façon significative. Cela provient principalement du surdébit de communications entre les nœuds d'un cluster. 

La bibliothèque distribuée de SageMaker propose deux options pour l'entraînement distribué : le parallélisme des modèles et le parallélisme des données. Ce guide se concentre sur l'entraînement des modèles à l'aide d'une stratégie de parallélisme des données. Pour plus d'informations sur une stratégie d'entraînement pour le parallélisme des modèles, consultez Modèle parallèle distribué de SageMaker.