Amazon SageMaker HyperPod - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Amazon SageMaker HyperPod

SageMaker HyperPod vous permet de mettre en place des clusters résilients pour exécuter des charges de travail d'apprentissage automatique (ML) et développer state-of-the-art des modèles tels que de grands modèles linguistiques (LLMs), des modèles de diffusion et des modèles de base (FMs). Il accélère le développement FMs en supprimant les tâches indifférenciées liées à la création et à la maintenance de clusters de calcul à grande échelle alimentés par des milliers d'accélérateurs tels que AWS Trainium et les unités de traitement graphique NVIDIA A100 et H100 (). GPUs Lorsque les accélérateurs tombent en panne, les fonctionnalités de résilience des instances de SageMaker HyperPod surveillance du cluster détectent et remplacent automatiquement le matériel défectueux à la volée afin que vous puissiez vous concentrer sur l'exécution des charges de travail ML.

Pour commencer, vérifiez Conditions préalables pour l'utilisation du SageMaker HyperPod.AWS Identity and Access Management pour SageMaker HyperPod, configurez et choisissez l'une des options d'orchestrateur suivantes prises en charge par SageMaker HyperPod.

Support Slurm dans SageMaker HyperPod

SageMaker HyperPod prend en charge l'exécution de charges de travail d'apprentissage automatique sur des clusters résilients en s'intégrant à Slurm, un gestionnaire de charge de travail open source. La prise en charge de Slurm SageMaker HyperPod permet une orchestration fluide des clusters grâce à la configuration des clusters Slurm, ce qui vous permet de configurer des nœuds de tête, de connexion et de travail sur les SageMaker HyperPod clusters. Cette intégration facilite également la planification des tâches basée sur Slurm pour l'exécution de charges de travail ML sur le cluster, ainsi que l'accès direct aux nœuds du cluster pour la planification des tâches. Grâce à HyperPod la prise en charge de la configuration du cycle de vie, vous pouvez personnaliser l'environnement informatique des clusters en fonction de vos besoins spécifiques. En outre, en tirant parti des bibliothèques de formation distribuées d'Amazon SageMaker AI, vous pouvez optimiser les performances des clusters en termes de ressources AWS informatiques et réseau. Pour en savoir plus, veuillez consulter la section Orchestration de SageMaker HyperPod clusters avec Slurm.

Support d'Amazon EKS dans SageMaker HyperPod

SageMaker HyperPod s'intègre également à Amazon EKS pour permettre la formation à grande échelle de modèles de base sur des clusters de calcul résilients et de longue durée. Cela permet aux utilisateurs administrateurs de clusters de provisionner des HyperPod clusters et de les associer à un plan de contrôle EKS, ce qui permet une gestion dynamique des capacités, un accès direct aux instances de cluster et des fonctionnalités de résilience. Pour les data scientists, le support d'Amazon EKS HyperPod permet d'exécuter des charges de travail conteneurisées pour former des modèles de base, d'inférer des inférences sur le cluster EKS et de tirer parti de la fonctionnalité de reprise automatique des tâches pour la formation Kubeflow. PyTorch L'architecture implique un mappage 1 à 1 entre un cluster EKS (plan de contrôle) et un HyperPod cluster (nœuds de travail) au sein d'un VPC, fournissant ainsi une solution étroitement intégrée pour exécuter des charges de travail ML à grande échelle. Pour en savoir plus, veuillez consulter la section Orchestration de SageMaker HyperPod clusters avec Amazon EKS.

UltraServers avec HyperPod

HyperPod UltraServers fournit la puissance de calcul de l'IA en intégrant les superpuces NVIDIA dans une infrastructure cohérente et performante. Chacune NVL72 UltraServer combine 18 instances avec 72 interfaces NVIDIA Blackwell GPUs interconnectées NVLink, ce qui permet une inférence plus rapide et des performances d'entraînement plus rapides par rapport aux instances de la génération précédente. Cette architecture est particulièrement utile pour les entreprises qui travaillent avec des modèles de base de plusieurs milliards de paramètres, car la mémoire GPU unifiée permet à des modèles entiers de rester dans un seul NVLink domaine, éliminant ainsi les goulots d'étranglement liés au réseau entre nœuds. HyperPod renforce cet avantage matériel grâce à une planification intelligente tenant compte de la topologie qui optimise le placement de la charge de travail, au remplacement automatique des instances pour minimiser les perturbations et à des options de déploiement flexibles qui prennent en charge les configurations de ressources dédiées et partagées. Pour les équipes qui repoussent les limites de la taille et des performances des modèles, cette intégration fournit les bases informatiques nécessaires pour former et déployer les modèles d'IA les plus avancés avec une efficacité sans précédent.

SageMaker HyperPod optimise automatiquement le placement des instances sur votre. UltraServers Par défaut, HyperPod donne la priorité à toutes les instances d'une instance UltraServer avant d'en utiliser une autre. Par exemple, si vous voulez 14 instances et que vous UltraServers en avez 2 dans votre plan, SageMaker AI utilise toutes les instances du premier UltraServer. Si vous voulez 20 instances, l' SageMaker IA utilise les 18 instances dans la première, UltraServer puis en utilise 2 de plus dans la seconde.

Régions AWS soutenu par SageMaker HyperPod

SageMaker HyperPod est disponible dans les versions suivantes Régions AWS.

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-south-2

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ap-southeast-3

  • ap-southeast-4

  • ap-northeast-1

  • sa-east-1