Principales fonctionnalités de la bibliothèque de parallélisme des SageMaker modèles

La bibliothèque SageMaker de parallélisme des modèles d'Amazon propose des stratégies de distribution et des techniques d'économie de mémoire, telles que le parallélisme des données fragmentées, le parallélisme des tenseurs, le partitionnement des modèles par couches pour la planification des pipelines et le point de contrôle. Les stratégies et techniques de parallélisme de modèles permettent de distribuer de grands modèles sur plusieurs appareils tout en optimisant la vitesse d'entraînement et la consommation de mémoire. La bibliothèque fournit également des fonctions d'assistance, des gestionnaires de contexte et des fonctions d'encapsulation de Python pour adapter votre script d'entraînement au partitionnement automatique ou manuel de votre modèle.

Lorsque vous implémentez le parallélisme des modèles dans votre tâche de formation, vous conservez le même flux de travail en deux étapes que celui indiqué dans la section Exécuter un travail de SageMaker formation distribué avec le parallélisme des modèles. Pour adapter votre script d'entraînement, vous n'ajouterez aucune ligne de code ou quelques lignes de code supplémentaires à votre script d'entraînement. Pour lancer une tâche d'entraînement du script d'entraînement adapté, vous devez définir les paramètres de configuration de distribution afin d'activer les fonctionnalités d'économie de mémoire ou de transmettre des valeurs pour le degré de parallélisme.

Pour commencer avec des exemples, consultez les blocs-notes Jupyter suivants qui montrent comment utiliser la bibliothèque de parallélisme des SageMaker modèles.

Pour en savoir plus sur les fonctionnalités de base de la bibliothèque, consultez les rubriques suivantes.

Note

Les bibliothèques de formation SageMaker distribuées sont disponibles via les conteneurs d'apprentissage AWS profond de PyTorch Hugging Face TensorFlow et au sein de SageMaker la plateforme de formation. Pour utiliser les fonctionnalités des bibliothèques de formation distribuées, nous vous recommandons d'utiliser le SDK SageMaker Python. Vous pouvez également configurer manuellement dans la syntaxe des requêtes JSON si vous utilisez SageMaker des API via le SDK for Python (Boto3) ou. AWS Command Line Interface Tout au long de la documentation, les instructions et les exemples se concentrent sur l'utilisation des bibliothèques de formation distribuées avec le SDK SageMaker Python.

Important

La bibliothèque de parallélisme des SageMaker modèles prend en charge toutes les fonctionnalités de base et prend en charge le parallélisme des pipelines pour PyTorch. TensorFlow

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Cadres pris en et Régions AWS

Parallélisme des données partitionnées