Slurmcomptabilité avec AWS ParallelCluster - AWS ParallelCluster

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Slurmcomptabilité avec AWS ParallelCluster

À partir de la version 3.3.0, AWS ParallelCluster prend en charge la Slurm comptabilité avec le paramètre de configuration du cluster SlurmSettings/Database.

Avec la Slurm comptabilité, vous pouvez intégrer une base de données comptable externe pour effectuer les opérations suivantes :

  • Gérez les utilisateurs du cluster ou les groupes d'utilisateurs et les autres entités. Grâce à cette fonctionnalité, vous pouvez utiliser Slurm les fonctionnalités les plus avancées, telles que l'application des limites de ressources, le fairshare et la qualité de service.

  • Collectez et enregistrez des données de travail, telles que l'utilisateur qui a exécuté le travail, la durée du travail et les ressources qu'il utilise. Vous pouvez consulter les données enregistrées à l'aide de l'sacctutilitaire.

Note

AWS ParallelCluster prend en charge Slurm la comptabilisation des serveurs de base de données MySQL Slurm pris en charge.

Travailler avec la Slurm comptabilité dans AWS ParallelCluster

Avant de configurer la gestion des Slurm comptes, vous devez disposer d'un serveur de base de données externe existant et d'une base de données utilisant mysql le protocole.

Pour configurer la Slurm comptabilité avec AWS ParallelCluster, vous devez définir les éléments suivants :

  • L'URI du serveur de base de données externe dans Database/Uri. Le serveur doit exister et être accessible depuis le nœud principal.

  • Informations d'identification pour accéder à la base de données externe définies dans Base de données/PasswordSecretArnet Base de données/UserName. AWS ParallelCluster utilise ces informations pour configurer la comptabilité au Slurm niveau et le slurmdbd service sur le nœud principal. slurmdbdest le démon qui gère les communications entre le cluster et le serveur de base de données.

Pour suivre un didacticiel étape par étape, voirCréation d'un cluster avec Slurm comptabilité.

Note

AWS ParallelCluster exécute un bootstrap de base de données de Slurm comptabilité en définissant l'utilisateur du cluster par défaut comme administrateur de base de données dans la Slurm base de données. AWS ParallelCluster n'ajoute aucun autre utilisateur à la base de données de comptabilité. Le client est responsable de la gestion des entités comptables de la Slurm base de données.

AWS ParallelCluster slurmdbdse configure pour garantir qu'un cluster possède sa propre Slurm base de données sur le serveur de base de données. Le même serveur de base de données peut être utilisé sur plusieurs clusters, mais chaque cluster possède sa propre base de données distincte. AWS ParallelCluster utilise le nom du cluster pour définir le nom de la base de données dans le StorageLocparamètre du fichier de slurmdbd configuration. Considérez la situation suivante. Une base de données présente sur le serveur de base de données inclut un nom de cluster qui ne correspond pas à un nom de cluster actif. Dans ce cas, vous pouvez créer un nouveau cluster portant ce nom de cluster pour le mapper à cette base de données. Slurmréutilise la base de données pour le nouveau cluster.

Avertissement
  • Nous ne recommandons pas de configurer plusieurs clusters pour utiliser la même base de données à la fois. Cela peut entraîner des problèmes de performances ou même des situations de blocage de la base de données.

  • Si la gestion des Slurm comptes est activée sur le nœud principal d'un cluster, nous vous recommandons d'utiliser un type d'instance doté d'un processeur puissant, de davantage de mémoire et d'une bande passante réseau plus importante. Slurmla comptabilité peut alourdir la charge sur le nœud principal du cluster.

Dans l'architecture actuelle de la fonctionnalité de AWS ParallelCluster Slurm comptabilité, chaque cluster possède sa propre instance du slurmdbd démon, comme le montrent les exemples de configuration du schéma suivant.

A configuration with two clusters that are connected to a MySQL server. Each cluster has their own slurmdbd daemon instance. Moreover, each cluster is connected to its own database through the server. Another configuration with a single cluster that has its own slurmdbd daemon instance. This configuration is connected to a MySQL server and is also connected to its own database through the server.

Si vous ajoutez des fonctionnalités personnalisées de Slurm multi-clusters ou de fédération à votre environnement de cluster, tous les clusters doivent faire référence à la même slurmdbd instance. Pour cette alternative, nous vous recommandons d'activer la gestion des AWS ParallelCluster Slurm comptes sur un cluster et de configurer manuellement les autres clusters pour slurmdbd qu'ils se connectent à ceux hébergés sur le premier cluster.

Si vous utilisez des AWS ParallelCluster versions antérieures à la version 3.3.0, reportez-vous à la méthode alternative pour implémenter la Slurm comptabilité décrite dans ce billet de blog sur le HPC.

Slurmconsidérations comptables

Base de données et cluster sur différents VPC

Pour activer la Slurm comptabilité, un serveur de base de données est nécessaire pour servir de backend pour les opérations de lecture et d'écriture effectuées par le slurmdbd démon. Avant que le cluster ne soit créé ou mis à jour pour activer la Slurm comptabilité, le nœud principal doit pouvoir accéder au serveur de base de données.

Si vous devez déployer le serveur de base de données sur un VPC autre que celui utilisé par le cluster, tenez compte des points suivants :

  • Pour permettre la communication entre le slurmdbd côté cluster et le serveur de base de données, vous devez configurer la connectivité entre les deux VPC. Pour plus d'informations, consultez VPC Peering dans le guide de l'utilisateur d'Amazon Virtual Private Cloud.

  • Vous devez créer le groupe de sécurité que vous souhaitez associer au nœud principal sur le VPC du cluster. Une fois que les deux VPC ont été comparés, la liaison croisée entre les groupes de sécurité côté base de données et côté cluster est disponible. Pour plus d'informations, consultez les règles des groupes de sécurité dans le guide de l'utilisateur d'Amazon Virtual Private Cloud.

Configuration du chiffrement TLS entre slurmdbd et le serveur de base de données

Avec la configuration de Slurm comptabilité par défaut qui AWS ParallelCluster fournit, slurmdbd établit une connexion cryptée TLS avec le serveur de base de données, si celui-ci prend en charge le chiffrement TLS. AWS les services de base de données tels qu'Amazon RDS Amazon Aurora prennent en charge le chiffrement TLS par défaut.

Vous pouvez exiger des connexions sécurisées côté serveur en définissant le require_secure_transport paramètre sur le serveur de base de données. Ceci est configuré dans le CloudFormation modèle fourni.

Conformément aux meilleures pratiques de sécurité, nous vous recommandons d'activer également la vérification de l'identité du serveur sur le slurmdbd client. Pour ce faire, configurez le StorageParametersdans leslurmdbd.conf. Téléchargez le certificat CA du serveur sur le nœud principal du cluster. Définissez ensuite l'option SSL_CA StorageParameters in slurmdbd.conf sur le chemin du certificat CA du serveur sur le nœud principal. Cela permet de vérifier l'identité du serveur sur le slurmdbd côté. Après avoir apporté ces modifications, redémarrez le slurmdbd service pour rétablir la connectivité au serveur de base de données avec la vérification d'identité activée.

Mise à jour des identifiants de base de données

Pour mettre à jour les valeurs de Database/UserNameor PasswordSecretArn, vous devez d'abord arrêter le parc informatique. Supposons que la valeur secrète stockée dans le AWS Secrets Manager secret soit modifiée et que son ARN ne soit pas modifié. Dans ce cas, le cluster ne met pas automatiquement à jour le mot de passe de la base de données à la nouvelle valeur. Pour mettre à jour le cluster en fonction de la nouvelle valeur secrète, exécutez la commande suivante depuis le nœud principal.

$ sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
Avertissement

Pour éviter de perdre des données comptables, nous vous recommandons de ne modifier le mot de passe de la base de données que lorsque le parc informatique est arrêté.

Surveillance des bases de données

Nous vous recommandons d'activer les fonctionnalités de surveillance des services de AWS base de données. Pour plus d'informations, consultez la documentation relative à la surveillance Amazon RDS ou à la documentation relative à la surveillance Amazon Aurora.