Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Organisez une formation distribuée avec la bibliothèque de parallélisme de données distribué basée sur l' SageMaker IA

Mode de mise au point
Organisez une formation distribuée avec la bibliothèque de parallélisme de données distribué basée sur l' SageMaker IA - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

La bibliothèque SMDDP ( SageMaker AI Distributed Data Parallelism) étend les capacités de SageMaker formation sur les modèles d'apprentissage profond avec une efficacité de mise à l'échelle quasi linéaire en fournissant des implémentations d'opérations de communication collective optimisées pour l'infrastructure. AWS

Lorsqu'ils entraînent de grands modèles de machine learning (ML), tels que les grands modèles de langage (LLM) et les modèles de diffusion, sur un vaste ensemble de données de formation, les praticiens du ML utilisent des clusters d'accélérateurs et des techniques d'entraînement distribuées afin de réduire le temps d'entraînement ou de résoudre les contraintes de mémoire pour les modèles qui ne peuvent pas tenir dans la mémoire de chaque GPU. Les professionnels du ML commencent souvent par utiliser plusieurs accélérateurs sur une seule instance, puis les adaptent à des clusters d'instances à mesure que leurs exigences en matière de charge de travail augmentent. À mesure que la taille du cluster augmente, la charge de communication entre plusieurs nœuds augmente également, ce qui entraîne une baisse des performances informatiques globales.

Pour résoudre ces problèmes de surcharge et de mémoire, la bibliothèque SMDDP propose les solutions suivantes.

  • La bibliothèque SMDDP optimise les tâches de formation pour l'infrastructure AWS réseau et la topologie des instances Amazon SageMaker AI ML.

  • La bibliothèque SMDDP améliore la communication entre les nœuds grâce à des implémentations AllReduce et à des opérations de communication AllGather collective optimisées pour l'infrastructure. AWS

Pour en savoir plus sur les détails des offres de bibliothèque SMDDP, rendez-vous sur. Présentation de la bibliothèque de parallélisme de données distribué basée sur l' SageMaker IA

Pour plus d'informations sur l'entraînement avec la stratégie de modélisation parallèle proposée par l' SageMaker IA, voir également. (Archivé) bibliothèque de parallélisme de SageMaker modèles v1.x

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.