Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Vous pouvez créer plusieurs nœuds de contrôleur (principaux) dans un seul cluster SageMaker HyperPod Slurm, l'un servant de nœud de contrôleur principal et les autres de nœuds de contrôleur de secours. Le nœud contrôleur principal est chargé de contrôler les nœuds de calcul (de travail) et de gérer les opérations Slurm. Les nœuds de contrôleur de secours surveillent en permanence le nœud de contrôleur principal. Si le nœud du contrôleur principal tombe en panne ou ne répond plus, l'un des nœuds du contrôleur secondaire prend automatiquement le relais en tant que nouveau nœud du contrôleur principal.
La configuration de plusieurs nœuds de contrôleur dans les clusters SageMaker HyperPod Slurm offre plusieurs avantages clés. Il élimine le risque de défaillance d'un seul nœud de contrôleur en fournissant des nœuds de tête de contrôleur, permet le basculement automatique vers les nœuds de contrôleur de sauvegarde avec une restauration plus rapide et vous permet de gérer vos propres bases de données comptables et la configuration de Slurm de manière indépendante.
Concepts clés
Ce qui suit fournit des détails sur les concepts liés à la prise en charge de SageMaker HyperPod plusieurs nœuds de contrôleur (tête) pour les clusters Slurm.
Nœud de contrôleur
Un nœud de contrôleur est une EC2 instance Amazon au sein d'un cluster qui exécute des services Slurm essentiels pour gérer et coordonner les opérations du cluster. Plus précisément, il héberge le démon du contrôleur Slurm (slurmctld) et le démon de base de données Slurm (slurmdbd)
Nœud de contrôleur principal
Un nœud de contrôleur principal est le nœud de contrôleur actif et contrôlant actuellement dans un cluster Slurm. Il est identifié par Slurm comme étant le nœud contrôleur principal responsable de la gestion du cluster. Le nœud contrôleur principal reçoit et exécute les commandes des utilisateurs pour contrôler et allouer des ressources sur les nœuds de calcul pour exécuter des tâches.
Nœud du contrôleur Backup
Un nœud de contrôleur de secours est un nœud de contrôleur inactif et en veille dans un cluster Slurm. Il est identifié par Slurm comme étant un nœud de contrôleur de secours qui ne gère pas actuellement le cluster. Le nœud du contrôleur de sauvegarde exécute le démon du contrôleur Slurm (slurmctld
Nœud de calcul
Un nœud de calcul est une EC2 instance Amazon au sein d'un cluster qui héberge le démon Slurm Worker (
Comment ça marche
Le schéma suivant illustre la façon dont les différents AWS services fonctionnent ensemble pour prendre en charge l'architecture à plusieurs nœuds de contrôleur (têtes) pour les clusters SageMaker HyperPod Slurm.

Les AWS services qui fonctionnent ensemble pour prendre en charge l'architecture à SageMaker HyperPod plusieurs nœuds de contrôleur (têtes) sont les suivants.
Service | Description |
---|---|
JE SUIS ()AWS Identity and Access Management | Définit deux rôles IAM pour contrôler les autorisations d'accès : un rôle pour le groupe d'instances du nœud de calcul et l'autre pour le groupe d'instances du nœud contrôleur. |
Amazon RDS for MariaDB | Stocke les données comptables de Slurm, qui contient les dossiers de travail et les données de mesure. |
AWS Secrets Manager | Stocke et gère les informations d'identification auxquelles Amazon FSx pour Lustre peut accéder. |
Amazon FSx pour Lustre | Stocke les configurations et l'état d'exécution de Slurm. |
Amazon VPC | Fournit un environnement réseau isolé dans lequel le HyperPod cluster et ses ressources sont déployés. |
Amazon SNS | Envoie des notifications aux administrateurs en cas de changement de statut (le contrôleur Slurm est ON ouOFF ) lié au nœud du contrôleur principal (tête). |
Le HyperPod cluster lui-même se compose de nœuds de contrôleur (principaux et de secours) et de nœuds de calcul. Les nœuds du contrôleur exécutent les composants du contrôleur Slurm (SlurmCtld) et de la base de données (SlurmDBd), qui gèrent et surveillent la charge de travail sur les nœuds de calcul.
Les nœuds du contrôleur accèdent aux configurations et à l'état d'exécution de Slurm stockés dans le système de fichiers Amazon FSx for Lustre. Les données comptables de Slurm sont stockées dans la base de données Amazon RDS for MariaDB. AWS Secrets Manager fournit un accès sécurisé aux informations d'identification de base de données pour les nœuds du contrôleur.
En cas de changement de statut (le contrôleur Slurm est ON
ouOFF
) dans les nœuds du contrôleur Slurm, Amazon SNS envoie des notifications à l'administrateur pour qu'il prenne les mesures nécessaires.
Cette architecture à plusieurs nœuds de contrôleur élimine le point de défaillance unique d'un seul nœud de contrôleur (tête), permet une reprise rapide et automatique sur incident et vous permet de contrôler la base de données de comptabilité et les configurations de Slurm.