Bibliothèque de données parallèles distribuées de SageMaker - Amazon SageMaker

Bibliothèque de données parallèles distribuées de SageMaker

La bibliothèque parallèle de données distribuées de SageMaker étend les capacités d'entraînement de SageMaker aux modèles de deep learning avec une efficacité de mise à l'échelle quasi-linéaire, ce qui permet d'obtenir un temps d'entraînement rapide avec des modifications minimales du code.

Lorsqu'un modèle est entraîné sur une grande quantité de données, les professionnels du machine learning choisissent souvent l'entraînement distribué pour réduire la durée d'entraînement. Lorsque tout repose sur le temps, l'entreprise doit terminer l'entraînement le plus rapidement possible, ou du moins dans un délai limité. Ensuite, l'entraînement distribué est mis à l'échelle pour utiliser un cluster de plusieurs nœuds et pas seulement plusieurs GPU dans une instance de calcul, mais plusieurs instances avec plusieurs GPU. À mesure que la taille du cluster augmente, les performances baissent de façon significative. Cela provient principalement du surdébit de communications entre les nœuds d'un cluster.

Pour résoudre ces problèmes de surcharge, SageMaker propose deux options d'entraînement distribué : parallélisme de modèles SageMaker et parallélisme de données SageMaker. Ce guide explique comment entraîner des modèles à l'aide de la bibliothèque de données parallèles SageMaker.

  • La bibliothèque optimise votre tâche d'entraînement pour l'infrastructure réseau AWS et la topologie d'instance Amazon EC2.

  • La bibliothèque tire parti des mises à jour de gradient pour communiquer entre les nœuds avec un algorithme AllReduce personnalisé.

Pour suivre les dernières mises à jour de la bibliothèque, consultez SageMaker Distributed Data Parallel Release Notes (Notes de mise à jour du parallélisme de données SageMaker distribué) dans la documentation du kit SDK de SageMaker Python.

Pour plus d'informations sur l'entraînement avec une stratégie modèle-parallèle, reportez-vous à Modèle parallèle distribué de SageMaker.