Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Création d'un SageMaker HyperPod cluster avec l'orchestration Amazon EKS
Le didacticiel suivant explique comment créer un nouveau SageMaker HyperPod cluster et le configurer avec l'orchestration Amazon EKS via l'interface utilisateur de la console SageMaker AI.
Dans cette rubrique :
Créer un cluster
Pour accéder à la page SageMaker HyperPod Clusters et choisir l'orchestration Amazon EKS, procédez comme suit.
Ouvrez la console Amazon SageMaker AI à l'adresse https://console.aws.amazon.com/sagemaker/
. -
Choisissez HyperPod Clusters dans le volet de navigation de gauche, puis Gestion des clusters.
-
Sur la page SageMaker HyperPod Clusters, choisissez Create HyperPod cluster.
-
Dans le menu déroulant Créer un HyperPod cluster, sélectionnez Orchestrated by Amazon EKS.
-
Sur la page de création du cluster EKS, vous verrez deux options. Choisissez celle qui répond le mieux à vos besoins.
-
Configuration rapide -Pour commencer immédiatement avec les paramètres par défaut, choisissez Configuration rapide. Grâce à cette option, l' SageMaker IA créera de nouvelles ressources telles que le VPC, les sous-réseaux, les groupes de sécurité, le compartiment Amazon S3, le rôle IAM et FSx pour Lustre lors de la création de votre cluster.
-
Configuration personnalisée -Pour intégrer des AWS ressources existantes ou pour avoir des exigences spécifiques en matière de réseau, de sécurité ou de stockage, choisissez Configuration personnalisée. Avec cette option, vous pouvez choisir d'utiliser les ressources existantes ou d'en créer de nouvelles, et vous pouvez personnaliser la configuration qui répond le mieux à vos besoins.
-
Configuration rapide
Dans la section Configuration rapide, suivez ces étapes pour créer votre HyperPod cluster avec l'orchestration Amazon EKS.
Spécifiez un nom pour le nouveau cluster. Vous ne pouvez pas modifier le nom une fois le cluster créé.
Pour ajouter un groupe d'instances, choisissez Ajouter un groupe. Chaque groupe d'instances peut être configuré différemment, et vous pouvez créer un cluster hétérogène composé de plusieurs groupes d'instances avec différents types d'instances. Pour déployer un cluster, vous devez ajouter au moins un groupe d'instances. Procédez comme suit pour ajouter un groupe d'instances.
-
Pour le type de groupe d'instances, sélectionnez Standard ou Restricted Instance Group (RIG). Généralement, vous choisissez Standard, qui fournit un environnement informatique à usage général sans restrictions de sécurité supplémentaires. Le Restricted Instance Group (RIG) est un environnement spécialisé pour la personnalisation de modèles fondamentaux tels qu'Amazon Nova. Pour plus d'informations sur la configuration de RIG pour la personnalisation des modèles Amazon Nova, consultezPersonnalisation d'Amazon Nova sur Amazon SageMaker HyperPod.
-
Pour Nom, spécifiez le nom du groupe d'instances.
-
Pour la capacité de l'instance, choisissez soit une capacité à la demande, soit un plan de formation pour réserver vos ressources informatiques.
-
Dans Type d'instance, choisissez l'instance pour le groupe d'instances. Assurez-vous de choisir le type d'instance avec des quotas suffisants sur votre compte, ou demandez des quotas supplémentaires en suivant le lien surSageMaker HyperPod quotas.
-
Pour Quantité d'instances, spécifiez un entier ne dépassant pas le quota d'instance pour l'utilisation du cluster. Pour ce didacticiel, entrez 1 pour les trois groupes.
-
Pour la zone de disponibilité cible, choisissez la zone de disponibilité dans laquelle vos instances seront approvisionnées. La zone de disponibilité doit correspondre à l'emplacement de votre capacité de calcul accélérée.
-
Pour Volume de stockage supplémentaire par instance (Go), facultatif, spécifiez un entier compris entre 1 et 16 384 pour définir la taille d'un volume Elastic Block Store (EBS) supplémentaire en gigaoctets (Go). Le volume EBS est attaché à chaque instance du groupe d'instances. Le chemin de montage par défaut pour le volume EBS supplémentaire est
/opt/sagemaker
. Une fois le cluster créé avec succès, vous pouvez accéder aux instances du cluster (nœuds) par SSH et vérifier si le volume EBS est correctement monté en exécutant ladf -h
commande. L'attachement d'un volume EBS supplémentaire fournit un stockage stable, hors instance et persistant de manière indépendante, comme décrit dans la section sur les volumes Amazon EBS du guide de l'utilisateur d'Amazon Elastic Block Store. -
Par exemple, des bilans de santé approfondis, choisissez votre option. Des contrôles de santé approfondis surveillent l'état des instances lors de leur création et après les mises à jour logicielles. Ils permettent de récupérer automatiquement les instances défectueuses par le biais de redémarrages ou de remplacements lorsqu'ils sont activés.
-
Choisissez Ajouter un groupe d'instances.
Cette section répertorie tous les paramètres par défaut pour la création de votre cluster, y compris toutes les nouvelles AWS ressources qui seront créées au cours du processus de création du cluster. Passez en revue les paramètres par défaut.
Configuration personnalisée
Dans la section Configuration personnalisée, suivez ces étapes pour créer votre premier HyperPod cluster avec l'orchestration Amazon EKS.
Spécifiez un nom pour le nouveau cluster. Vous ne pouvez pas modifier le nom une fois le cluster créé.
Pour Restaurer une instance, sélectionnez Automatique - recommandé ou Aucun.
Configurez les paramètres réseau au sein in-and-out du cluster et du cluster. Pour l'orchestration du SageMaker HyperPod cluster avec Amazon EKS, le VPC est automatiquement défini sur celui configuré avec le cluster EKS que vous avez sélectionné.
-
Pour le VPC, choisissez votre propre VPC si vous en avez déjà un qui permet à l' SageMaker IA d'accéder à votre VPC. Pour créer un nouveau VPC, suivez les instructions de la section Créer un VPC du guide de l'utilisateur Amazon Virtual Private Cloud. Vous pouvez le laisser sur Aucun pour utiliser le VPC SageMaker AI par défaut.
-
Pour le bloc d'adresse IPv4 CIDR VPC, entrez l'adresse IP de départ de votre VPC.
-
Pour les zones de disponibilité, choisissez les zones de disponibilité (AZ) dans lesquelles HyperPod vous créerez des sous-réseaux pour votre cluster. Choisissez AZs celui qui correspond à l'emplacement de votre capacité de calcul accélérée.
-
Pour les groupes de sécurité, choisissez les groupes de sécurité attachés au cluster Amazon EKS ou dont le trafic entrant est autorisé par le groupe de sécurité associé au cluster Amazon EKS. Pour créer de nouveaux groupes de sécurité, accédez à la console Amazon VPC.
Suivez ces étapes pour créer ou sélectionner un cluster Amazon EKS à utiliser comme orchestrateur.
-
Pour le cluster EKS, choisissez soit créer un nouveau cluster Amazon EKS, soit utiliser un cluster existant.
Si vous devez créer un nouveau cluster EKS, vous pouvez le créer à partir de la section Cluster EKS sans avoir à ouvrir la console Amazon EKS.
Note
Le sous-réseau VPC que vous choisissez HyperPod doit être privé.
Après avoir soumis une nouvelle demande de création de cluster EKS, attendez que le cluster EKS le devienne
Active
. -
Pour la version de Kubernetes, choisissez une version dans le menu déroulant. Pour plus d'informations sur les versions de Kubernetes, consultez Comprendre le cycle de vie des versions de Kubernetes sur EKS dans le guide de l'utilisateur Amazon EKS.
-
Pour les opérateurs, choisissez Utiliser les diagrammes Helm et les modules complémentaires par défaut ou Ne pas installer d'opérateurs. L'option par défaut est Utiliser les graphiques Helm et les modules complémentaires par défaut, qui seront utilisés pour installer les opérateurs sur le cluster EKS. Pour plus d'informations sur les graphiques Helm par défaut et les modules complémentaires, consultez
helm_chart
le GitHub référentiel. Pour de plus amples informations, veuillez consulter Installation de packages sur le cluster Amazon EKS à l'aide de Helm. -
Pour les opérateurs activés, consultez la liste des opérateurs activés. Pour modifier les opérateurs, décochez la case en haut et choisissez les opérateurs à activer pour le cluster EKS.
Note
Pour l'utiliser HyperPod avec EKS, vous devez installer des cartes Helm et des modules complémentaires qui activent les opérateurs sur le cluster EKS. Ces composants configurent EKS en tant que plan de contrôle HyperPod et fournissent la configuration nécessaire à la gestion et à l'orchestration de la charge de travail.
Pour ajouter un groupe d'instances, choisissez Ajouter un groupe. Chaque groupe d'instances peut être configuré différemment, et vous pouvez créer un cluster hétérogène composé de plusieurs groupes d'instances avec différents types d'instances. Pour déployer un cluster, vous devez ajouter au moins un groupe d'instances. Procédez comme suit pour ajouter un groupe d'instances.
-
Pour le type de groupe d'instances, sélectionnez Standard ou Restricted Instance Group (RIG). Généralement, vous choisissez Standard, qui fournit un environnement informatique à usage général sans restrictions de sécurité supplémentaires. Le Restricted Instance Group (RIG) est un environnement spécialisé pour la personnalisation de modèles fondamentaux tels qu'Amazon Nova. Pour plus d'informations sur la configuration de RIG pour la personnalisation des modèles Amazon Nova, consultezPersonnalisation d'Amazon Nova sur Amazon SageMaker HyperPod.
-
Pour Nom, spécifiez le nom du groupe d'instances.
-
Pour la capacité de l'instance, choisissez soit une capacité à la demande, soit un plan de formation pour réserver vos ressources informatiques.
-
Dans Type d'instance, choisissez l'instance pour le groupe d'instances. Assurez-vous de choisir le type d'instance avec des quotas suffisants sur votre compte, ou demandez des quotas supplémentaires en suivant le lien surSageMaker HyperPod quotas.
-
Pour Quantité d'instances, spécifiez un entier ne dépassant pas le quota d'instance pour l'utilisation du cluster. Pour ce didacticiel, entrez 1 pour les trois groupes.
-
Pour la zone de disponibilité cible, choisissez la zone de disponibilité dans laquelle vos instances seront approvisionnées. La zone de disponibilité doit correspondre à l'emplacement de votre capacité de calcul accélérée.
-
Pour Volume de stockage supplémentaire par instance (Go), facultatif, spécifiez un entier compris entre 1 et 16 384 pour définir la taille d'un volume Elastic Block Store (EBS) supplémentaire en gigaoctets (Go). Le volume EBS est attaché à chaque instance du groupe d'instances. Le chemin de montage par défaut pour le volume EBS supplémentaire est
/opt/sagemaker
. Une fois le cluster créé avec succès, vous pouvez accéder aux instances du cluster (nœuds) par SSH et vérifier si le volume EBS est correctement monté en exécutant ladf -h
commande. L'attachement d'un volume EBS supplémentaire fournit un stockage stable, hors instance et persistant de manière indépendante, comme décrit dans la section sur les volumes Amazon EBS du guide de l'utilisateur d'Amazon Elastic Block Store. -
Par exemple, des bilans de santé approfondis, choisissez votre option. Des contrôles de santé approfondis surveillent l'état des instances lors de leur création et après les mises à jour logicielles. Ils permettent de récupérer automatiquement les instances défectueuses par le biais de redémarrages ou de remplacements lorsqu'ils sont activés. Pour en savoir plus, consultez Contrôles de santé approfondis
-
Choisissez Ajouter un groupe d'instances.
Vous pouvez choisir d'utiliser les scripts de cycle de vie par défaut ou les scripts de cycle de vie personnalisés, qui seront stockés dans votre compartiment Amazon S3. Vous pouvez consulter les scripts de cycle de vie par défaut dans le GitHub référentiel Awesome Distributed Training
-
Pour les scripts de cycle de vie, choisissez d'utiliser des scripts de cycle de vie par défaut ou personnalisés.
-
Pour le compartiment S3 pour les scripts de cycle de vie, choisissez de créer un nouveau compartiment ou d'utiliser un compartiment existant pour stocker les scripts de cycle de vie.
Choisissez ou créez un rôle IAM qui permet d'exécuter et HyperPod d'accéder aux AWS ressources nécessaires en votre nom. Pour de plus amples informations, veuillez consulter Rôle IAM pour SageMaker HyperPod.
Configurez le système de fichiers FSx for Lustre à provisionner sur le HyperPod cluster.
-
Pour Système de fichiers, choisissez un système de fichiers existant FSx pour Lustre, pour créer un nouveau système de fichiers FSx pour Lustre, ou n'en FSx configurez aucun pour Lustre.
-
Pour Débit par unité de stockage, choisissez le débit qui sera disponible par TiB de stockage provisionné.
-
Pour Capacité de stockage, entrez une valeur de capacité en To.
-
Pour le type de compression des données, choisissez LZ4d'activer la compression des données.
-
Pour la version Lustre, consultez la valeur recommandée pour les nouveaux systèmes de fichiers.
Pour les balises (facultatif), ajoutez des paires clé/valeur au nouveau cluster et gérez le cluster en tant que AWS ressource. Pour en savoir plus, consultez la section Marquage de vos AWS ressources.
Déployer les ressources
Après avoir terminé les configurations du cluster à l'aide de la configuration rapide ou de la configuration personnalisée, choisissez l'option suivante pour démarrer le provisionnement des ressources et la création du cluster.
-
Soumettre : SageMaker AI commencera à approvisionner les ressources de configuration par défaut et à créer le cluster.
-
Télécharger les paramètres du CloudFormation modèle -Vous allez télécharger le fichier JSON des paramètres de configuration et exécuter la AWS CLI commande pour déployer la CloudFormation pile afin de provisionner les ressources de configuration et de créer le cluster. Vous pouvez modifier le fichier JSON de paramètres téléchargé si nécessaire. Si vous choisissez cette option, consultez les instructions supplémentaires dansCréation de SageMaker HyperPod clusters à l'aide AWS CloudFormation de modèles.