SageMaker HyperPod - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SageMaker HyperPod

SageMaker HyperPod vous permet de mettre en place des clusters résilients pour exécuter des charges de travail d'apprentissage automatique (ML) et développer state-of-the-art des modèles tels que les grands modèles linguistiques (LLM), les modèles de diffusion et les modèles de base (FM). Il accélère le développement des FM en supprimant les tâches indifférenciées liées à la création et à la maintenance de clusters de calcul à grande échelle alimentés par des milliers d'accélérateurs tels que AWS Trainium et les unités de traitement graphique (GPU) NVIDIA A100 et H100. Lorsque les accélérateurs tombent en panne, les clusters à réparation automatique détectent et remplacent automatiquement le matériel défectueux à la volée, afin que vous puissiez vous concentrer sur l'exécution des charges de travail de ML pendant des semaines, voire des mois, sans interruption. De plus SageMaker HyperPod, vous pouvez personnaliser votre environnement informatique pour qu'il réponde au mieux à vos besoins et le configurer avec les bibliothèques de formation SageMaker distribuées par Amazon pour obtenir des performances optimales sur AWS.

Clusters d'exploitation

Vous pouvez créer, configurer et gérer des SageMaker HyperPod clusters graphiquement via l'interface utilisateur (UI) de la console et par programmation via l'interface de ligne de AWS commande (CLI) ou. AWS SDK for Python (Boto3) Avec Amazon VPC, vous pouvez sécuriser le réseau du cluster et tirer parti de la configuration de votre cluster avec les ressources de votre VPC, telles qu'Amazon FSx for Lustre, qui offre le débit le plus rapide. Vous pouvez également attribuer différents rôles IAM aux groupes d'instances de cluster et limiter les actions que les ressources et les utilisateurs de votre cluster peuvent effectuer. Pour en savoir plus, veuillez consulter la section Opérer SageMaker HyperPod.

Configuration de votre environnement ML

SageMaker HyperPod runsSageMaker HyperPod DLAMI, qui configure un environnement ML sur les HyperPod clusters. Vous pouvez configurer des personnalisations supplémentaires pour le DLAMI en fournissant des scripts de cycle de vie adaptés à votre cas d'utilisation. Pour en savoir plus sur la configuration des scripts de cycle de vie, consultez Commencer avec SageMaker HyperPod etSageMaker HyperPod meilleures pratiques de configuration du cycle de vie.

Planification des tâches

Une fois que vous avez créé un HyperPod cluster avec succès, les utilisateurs du cluster peuvent se connecter aux nœuds du cluster (tels que le nœud principal ou contrôleur, le nœud de connexion et le nœud de travail) et planifier des tâches pour exécuter des charges de travail d'apprentissage automatique. Pour en savoir plus, veuillez consulter la section Exécuter des tâches sur SageMaker HyperPod des clusters.

Résilience face aux défaillances matérielles

SageMaker HyperPod exécute des contrôles de santé sur les nœuds du cluster et fournit une fonctionnalité de reprise automatique de la charge de travail. Grâce aux fonctionnalités de résilience des clusters de HyperPod, vous pouvez reprendre votre charge de travail à partir du dernier point de contrôle enregistré, une fois que les nœuds défectueux ont été remplacés par des nœuds sains dans les clusters de plus de 16 nœuds. Pour en savoir plus, veuillez consulter la section SageMaker HyperPod résilience du cluster.

Journalisation et gestion des clusters

Vous pouvez trouver SageMaker HyperPod des indicateurs d'utilisation des ressources et des journaux de cycle de vie sur Amazon CloudWatch, et gérer les SageMaker HyperPod ressources en les balisant. Chaque exécution CreateCluster d'API crée un flux de journal distinct, nommé selon le <cluster-name>-<timestamp> format. Dans le flux de journal, vous pouvez vérifier les noms d'hôtes, le nom des scripts de cycle de vie ayant échoué et les résultats des scripts ayant échoué, tels que stdout etstderr. Pour plus d’informations, consultez SageMaker HyperPod gestion des clusters.

Compatible avec les SageMaker outils

À l'aide de SageMaker HyperPod, vous pouvez configurer des clusters avec les bibliothèques de communications collectives AWS optimisées proposées par SageMaker, telles que la bibliothèque de parallélisme des données SageMaker distribuées (SMDDP). La bibliothèque SMDDP implémente le AllGather fonctionnement optimisé pour l'infrastructure AWS informatique et réseau pour les instances d'apprentissage SageMaker automatique les plus performantes alimentées par des GPU NVIDIA A100. Pour en savoir plus, consultez Exécutez des charges de travail de formation distribuées avec Slurm on SageMaker HyperPod.