Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

SageMaker HyperPod support de nœuds à plusieurs têtes

Mode de mise au point
SageMaker HyperPod support de nœuds à plusieurs têtes - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Vous pouvez créer plusieurs nœuds de contrôleur (principaux) dans un seul cluster SageMaker HyperPod Slurm, l'un servant de nœud de contrôleur principal et les autres de nœuds de contrôleur de secours. Le nœud contrôleur principal est chargé de contrôler les nœuds de calcul (de travail) et de gérer les opérations Slurm. Les nœuds de contrôleur de secours surveillent en permanence le nœud de contrôleur principal. Si le nœud du contrôleur principal tombe en panne ou ne répond plus, l'un des nœuds du contrôleur secondaire prend automatiquement le relais en tant que nouveau nœud du contrôleur principal.

La configuration de plusieurs nœuds de contrôleur dans les clusters SageMaker HyperPod Slurm offre plusieurs avantages clés. Il élimine le risque de défaillance d'un seul nœud de contrôleur en fournissant des nœuds de tête de contrôleur, permet le basculement automatique vers les nœuds de contrôleur de sauvegarde avec une restauration plus rapide et vous permet de gérer vos propres bases de données comptables et la configuration de Slurm de manière indépendante.

Concepts clés

Ce qui suit fournit des détails sur les concepts liés à la prise en charge de SageMaker HyperPod plusieurs nœuds de contrôleur (tête) pour les clusters Slurm.

Nœud de contrôleur

Un nœud de contrôleur est une EC2 instance Amazon au sein d'un cluster qui exécute des services Slurm essentiels pour gérer et coordonner les opérations du cluster. Plus précisément, il héberge le démon du contrôleur Slurm (slurmctld) et le démon de base de données Slurm (slurmdbd). Un nœud contrôleur est également appelé nœud principal.

Nœud de contrôleur principal

Un nœud de contrôleur principal est le nœud de contrôleur actif et contrôlant actuellement dans un cluster Slurm. Il est identifié par Slurm comme étant le nœud contrôleur principal responsable de la gestion du cluster. Le nœud contrôleur principal reçoit et exécute les commandes des utilisateurs pour contrôler et allouer des ressources sur les nœuds de calcul pour exécuter des tâches.

Nœud du contrôleur Backup

Un nœud de contrôleur de secours est un nœud de contrôleur inactif et en veille dans un cluster Slurm. Il est identifié par Slurm comme étant un nœud de contrôleur de secours qui ne gère pas actuellement le cluster. Le nœud du contrôleur de sauvegarde exécute le démon du contrôleur Slurm (slurmctld) en mode veille. Toutes les commandes de contrôleur exécutées sur les nœuds de contrôleur de secours seront propagées au nœud de contrôleur principal pour exécution. Son objectif principal est de surveiller en permanence le nœud de contrôleur principal et d'assumer ses responsabilités si le nœud de contrôleur principal tombe en panne ou ne répond plus.

Nœud de calcul

Un nœud de calcul est une EC2 instance Amazon au sein d'un cluster qui héberge le démon Slurm Worker (slurmd). La fonction principale du nœud de calcul est d'exécuter les tâches assignées par le démon du contrôleur Slurm (slurmctld) exécuté sur le nœud du contrôleur principal. Lorsqu'une tâche est planifiée, le nœud de calcul reçoit des instructions du démon du contrôleur Slurm (slurmctld) pour effectuer les tâches et les calculs nécessaires à cette tâche au sein du nœud lui-même. Un ordinateur est également connu sous le nom de nœud de travail.

Comment ça marche

Le schéma suivant illustre la façon dont les différents AWS services fonctionnent ensemble pour prendre en charge l'architecture à plusieurs nœuds de contrôleur (têtes) pour les clusters SageMaker HyperPod Slurm.

SageMaker HyperPod schéma d'architecture des nœuds à plusieurs têtes

Les AWS services qui fonctionnent ensemble pour prendre en charge l'architecture à SageMaker HyperPod plusieurs nœuds de contrôleur (têtes) sont les suivants.

AWS des services qui fonctionnent ensemble pour prendre en charge l'architecture à SageMaker HyperPod plusieurs nœuds de contrôleur
Service Description
JE SUIS ()AWS Identity and Access Management Définit deux rôles IAM pour contrôler les autorisations d'accès : un rôle pour le groupe d'instances du nœud de calcul et l'autre pour le groupe d'instances du nœud contrôleur.
Amazon RDS for MariaDB Stocke les données comptables de Slurm, qui contient les dossiers de travail et les données de mesure.
AWS Secrets Manager Stocke et gère les informations d'identification auxquelles Amazon FSx pour Lustre peut accéder.
Amazon FSx pour Lustre Stocke les configurations et l'état d'exécution de Slurm.
Amazon VPC Fournit un environnement réseau isolé dans lequel le HyperPod cluster et ses ressources sont déployés.
Amazon SNS Envoie des notifications aux administrateurs en cas de changement de statut (le contrôleur Slurm est ON ouOFF) lié au nœud du contrôleur principal (tête).

Le HyperPod cluster lui-même se compose de nœuds de contrôleur (principaux et de secours) et de nœuds de calcul. Les nœuds du contrôleur exécutent les composants du contrôleur Slurm (SlurmCtld) et de la base de données (SlurmDBd), qui gèrent et surveillent la charge de travail sur les nœuds de calcul.

Les nœuds du contrôleur accèdent aux configurations et à l'état d'exécution de Slurm stockés dans le système de fichiers Amazon FSx for Lustre. Les données comptables de Slurm sont stockées dans la base de données Amazon RDS for MariaDB. AWS Secrets Manager fournit un accès sécurisé aux informations d'identification de base de données pour les nœuds du contrôleur.

En cas de changement de statut (le contrôleur Slurm est ON ouOFF) dans les nœuds du contrôleur Slurm, Amazon SNS envoie des notifications à l'administrateur pour qu'il prenne les mesures nécessaires.

Cette architecture à plusieurs nœuds de contrôleur élimine le point de défaillance unique d'un seul nœud de contrôleur (tête), permet une reprise rapide et automatique sur incident et vous permet de contrôler la base de données de comptabilité et les configurations de Slurm.

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.