Observation des erreurs lors de l'initialisation des nœuds de calcul - AWS ParallelCluster

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Observation des erreurs lors de l'initialisation des nœuds de calcul

Voir Node bootstrap error dans clustermgtd.log

Le problème est lié à l'échec du démarrage des nœuds de calcul. Pour plus d'informations sur le débogage d'un problème lié au mode protégé par cluster, consultezComment déboguer le mode protégé.

J'ai configuré des réservations de capacité à la demande (ODCR) ou des instances réservées zonales

ODCR qui incluent des instances dotées de plusieurs interfaces réseau, telles que P4d, P4de et Trainium (Trn) AWS

Dans le fichier de configuration du cluster, vérifiez que le HeadNode se trouve dans un sous-réseau public et que les nœuds de calcul se trouvent dans un sous-réseau privé.

Les ODCR sont des ODCR ciblés

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.Même si je l'ai déjà mis /opt/slurm/etc/pcluster/run_instances_overrides.json en place, en suivant les instructions données dans Lancez des instances avec des réservations de capacité à la demande (ODCR)

Si vous utilisez les AWS ParallelCluster versions 3.1.1 à 3.2.1 avec des ODCR ciblés et que vous utilisez également le fichier JSON de remplacement des instances d'exécution, il est possible que le fichier JSON ne soit pas correctement formaté. Une erreur peut s'afficherclustermgtd.log, telle que la suivante :

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.

Vérifiez que le format de fichier JSON est correct en exécutant ce qui suit :

$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq

Voir Found RunInstances parameters override. en clustermgtd.log cas d'échec de la création du cluster ou en slurm_resume.log cas d'échec de la tâche d'exécution

Si vous utilisez le fichier Run Instances Override JSON, vérifiez que vous avez correctement défini le nom de la file d'attente et le nom des ressources de calcul dans le /opt/slurm/etc/pcluster/run_instances_overrides.json fichier.

Voir An error occurred (InsufficientInstanceCapacity)slurm_resume.log quand je ne parviens pas à exécuter une tâche, ou clustermgtd.log quand je ne parviens pas à créer un cluster

Utilisation du PG-ODCR (groupe de placement ODCR)

Lorsque vous créez un ODCR avec un groupe de placement associé, le même nom de groupe de placement doit être utilisé dans le fichier de configuration. Définissez le nom du groupe de placement correspondant dans la configuration du cluster.

Utilisation d'instances réservées zonales

Si vous utilisez des instances réservées zonales avecPlacementGroup/Enabledto true dans la configuration du cluster, une erreur peut s'afficher, telle que la suivante :

We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.

Cela peut être dû au fait que les instances réservées zonales ne sont pas placées dans le même UC (ou épine dorsale), ce qui peut entraîner des erreurs de capacité insuffisantes (ICE) lors de l'utilisation de groupes de placement. Vous pouvez vérifier ce cas en désactivant le paramètre PlacementGroup Groupe dans la configuration du cluster afin de déterminer si le cluster peut allouer les instances.

Voir An error occurred (VcpuLimitExceeded)slurm_resume.log quand je ne parviens pas à exécuter une tâche, ou quand je ne parviens pas à créer un cluster clustermgtd.log

Vérifiez les limites de vCPU de votre compte pour le type d'instance Amazon EC2 spécifique que vous utilisez. Si vous ne voyez aucun vCPU ou moins que ce que vous demandez, demandez une augmentation de vos limites. Pour plus d'informations sur la façon de consulter les limites actuelles et de demander de nouvelles limites, consultez les quotas de service Amazon EC2 dans le guide de l'utilisateur Amazon EC2.

Voir An error occurred (InsufficientInstanceCapacity)slurm_resume.log quand je ne parviens pas à exécuter une tâche, ou quand je ne parviens pas à créer un cluster clustermgtd.log

Vous rencontrez un problème de capacité insuffisante. Suivez https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/pour résoudre le problème.

Voir que les nœuds sont en DOWN état avec Reason (Code:InsufficientInstanceCapacity)...

Vous rencontrez un problème de capacité insuffisante. Suivez https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/pour résoudre le problème. Pour plus d'informations sur AWS ParallelCluster le mode de basculement rapide en cas de capacité insuffisante, consultez. Slurmbasculement rapide d'une capacité insuffisante du cluster

Voir cannot change locale (en_US.utf-8) because it has an invalid name dans slurm_resume.log

Cela peut se produire en cas d'échec du processus yum d'installation qui a laissé les paramètres régionaux dans un état incohérent. Cela peut se produire, par exemple, lorsqu'un utilisateur met fin au processus d'installation.

Pour en vérifier la cause, effectuez les actions suivantes :
  • Exécutez su - pcluster-admin.

    Le shell affiche une erreur, telle que,cannot change locale...no such file or directory.

  • Exécutez localedef --list.

    Renvoie une liste vide ou ne contient pas les paramètres régionaux par défaut.

  • Vérifiez la dernière yum commande avec yum history etyum history info #ID. Est-ce que la dernière pièce d'identité existe Return-Code: Success ?

    Si le dernier ID n'en a pasReturn-Code: Success, les scripts de post-installation ne se sont peut-être pas exécutés correctement.

Pour résoudre le problème, essayez de reconstruire les paramètres régionaux avecyum reinstall glibc-all-langpacks. Après la reconstruction, aucun message d'erreur ou d'avertissement su - pcluster-admin ne s'affiche si le problème est résolu.

Aucun des scénarios précédents ne s'applique à ma situation

Pour résoudre les problèmes d'initialisation des nœuds de calcul, consultez. Résolution des problèmes d'initialisation des nœuds

Vérifiez si votre scénario est couvert dans la section Problèmes GitHub connus AWS ParallelCluster sur le site On GitHub.

Pour obtenir une assistance supplémentaire, consultezSupport supplémentaire.