Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Organisez une formation distribuée avec la bibliothèque de parallélisme de données distribué basée sur l' SageMaker IA
La bibliothèque SageMaker AI Distributed Data Parallelism (SMDDP) étend les capacités de SageMaker formation sur les modèles d'apprentissage profond avec une efficacité de mise à l'échelle quasi linéaire en fournissant des implémentations d'opérations de communication collective optimisées pour l'infrastructure. AWS
Lorsqu'ils entraînent de grands modèles d'apprentissage automatique (ML), tels que les grands modèles de langage (LLM) et les modèles de diffusion, sur un vaste ensemble de données de formation, les praticiens du ML utilisent des clusters d'accélérateurs et des techniques d'entraînement distribuées pour réduire le temps d'entraînement ou de résolution des contraintes de mémoire pour les modèles qui ne peuvent pas tenir dans chaque GPU mémoire. Les professionnels du ML commencent souvent par utiliser plusieurs accélérateurs sur une seule instance, puis les adaptent à des clusters d'instances à mesure que leurs exigences en matière de charge de travail augmentent. À mesure que la taille du cluster augmente, la charge de communication entre plusieurs nœuds augmente également, ce qui entraîne une baisse des performances informatiques globales.
Pour résoudre ces problèmes de surcharge et de mémoire, la SMDDP bibliothèque propose les solutions suivantes.
-
La SMDDP bibliothèque optimise les tâches de formation pour l'infrastructure AWS réseau et la topologie des instances Amazon SageMaker AI ML.
-
La SMDDP bibliothèque améliore la communication entre les nœuds grâce à des implémentations
AllReduce
et à des opérations de communicationAllGather
collective optimisées pour AWS l'infrastructure.
Pour en savoir plus sur les détails des offres de la SMDDP bibliothèque, rendez-vous surPrésentation de la bibliothèque de parallélisme de données distribué basée sur l' SageMaker IA.
Pour plus d'informations sur l'entraînement avec la stratégie de modélisation parallèle proposée par l' SageMaker IA, voir également. (Archivé) bibliothèque de parallélisme de SageMaker modèles v1.x
Rubriques
- Présentation de la bibliothèque de parallélisme de données distribué basée sur l' SageMaker IA
- Frameworks et types Régions AWS d'instances pris en charge
- Formation distribuée avec la bibliothèque de parallélisme de données distribué basée sur l' SageMaker IA
- Exemples de bibliothèques de parallélisme de données Amazon SageMaker AI
- Conseils de configuration pour la bibliothèque de parallélisme de données distribué basée sur l' SageMaker IA
- Bibliothèque de parallélisme de données distribué Amazon SageMaker AI FAQ
- Résolution des problèmes liés à la formation distribuée dans Amazon SageMaker AI
- SageMaker Notes de mise à jour de la bibliothèque de parallélisme des données AI