Essayer de créer un cluster - AWS ParallelCluster

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Essayer de créer un cluster

Lorsque vous utilisez AWS ParallelCluster la version 3.5.0 ou ultérieure pour créer un cluster et que la création d'un cluster a échoué avec --rollback-on-failure set tofalse, utilisez la commande pcluster describe-cluster CLI pour obtenir des informations sur l'état et les défaillances. Dans ce cas, le pcluster describe-cluster résultat attendu clusterStatus estCREATE_FAILED. Consultez la failures section de la sortie pour trouver le failureCode etfailureReason. Ensuite, dans la section suivante, recherchez la solution correspondante failureCode pour obtenir une aide supplémentaire en matière de dépannage. Pour plus d’informations, consultez pcluster describe-cluster.

Dans les sections suivantes, nous vous recommandons de consulter les journaux du nœud principal, tels que les /var/log/chef-client.log fichiers /var/log/cfn-init.log et. Pour plus d'informations sur AWS ParallelCluster les journaux et sur la façon de les consulter, consultez Journaux clés pour le débogage etRécupération et conservation des journaux.

Si vous n'en avez pasfailureCode, accédez à la AWS CloudFormation console pour afficher la pile du cluster. Vérifiez les Status Reason défaillances HeadNodeWaitCondition ou sur d'autres ressources pour obtenir des informations supplémentaires sur les défaillances. Pour plus d’informations, consultez Afficher AWS CloudFormation les événements sur CREATE_FAILED. Vérifiez les /var/log/chef-client.log fichiers /var/log/cfn-init.log et sur le nœud principal.

failureCode est OnNodeConfiguredExecutionFailure

  • Pourquoi a-t-il échoué ?

    Vous avez fourni un script personnalisé dans la section OnNodeConfigured du nœud principal de la configuration pour créer un cluster. Cependant, le script personnalisé n'a pas pu être exécuté.

  • Comment résoudre le problème ?

    Consultez le /var/log/cfn-init.log fichier pour en savoir plus sur l'échec et sur la manière de résoudre le problème dans votre script personnalisé. Vers la fin de ce journal, des informations relatives à l'exécution du OnNodeConfigured script peuvent s'afficher après le Running command runpostinstall message.

failureCode est OnNodeConfiguredDownloadFailure

  • Pourquoi a-t-il échoué ?

    Vous avez fourni un script personnalisé dans la section OnNodeConfigured du nœud principal de la configuration pour créer un cluster. Cependant, le script personnalisé n'a pas pu être téléchargé.

  • Comment résoudre le problème ?

    Assurez-vous que l'URL est valide et que l'accès est correctement configuré. Pour plus d'informations sur la configuration des scripts bootstrap personnalisés, consultezActions de bootstrap personnalisées.

    Vérifiez le /var/log/cfn-init.log fichier. Vers la fin de ce journal, des informations relatives à l'exécution du OnNodeConfigured script, notamment au téléchargement, peuvent s'afficher après le Running command runpostinstall message.

failureCode est OnNodeConfiguredFailure

  • Pourquoi a-t-il échoué ?

    Vous avez fourni un script personnalisé dans la section OnNodeConfigured du nœud principal de la configuration pour créer un cluster. Cependant, l'utilisation du script personnalisé a échoué lors du déploiement du cluster. Aucune cause immédiate ne peut être déterminée et une enquête supplémentaire est nécessaire.

  • Comment résoudre le problème ?

    Vérifiez le /var/log/cfn-init.log fichier. Vers la fin de ce journal, vous pouvez voir des informations d'exécution relatives au traitement du OnNodeConfigured script après le Running command runpostinstall message.

failureCode est OnNodeStartExecutionFailure

  • Pourquoi a-t-il échoué ?

    Vous avez fourni un script personnalisé dans la section OnNodeStart du nœud principal de la configuration pour créer un cluster. Cependant, le script personnalisé n'a pas pu être exécuté.

  • Comment résoudre le problème ?

    Consultez le /var/log/cfn-init.log fichier pour en savoir plus sur l'échec et sur la manière de résoudre le problème dans votre script personnalisé. Vers la fin de ce journal, des informations relatives à l'exécution du OnNodeStart script peuvent s'afficher après le Running command runpreinstall message.

failureCode est OnNodeStartDownloadFailure

  • Pourquoi a-t-il échoué ?

    Vous avez fourni un script personnalisé dans la section OnNodeStart du nœud principal de la configuration pour créer un cluster. Cependant, le script personnalisé n'a pas pu être téléchargé.

  • Comment résoudre le problème ?

    Assurez-vous que l'URL est valide et que l'accès est correctement configuré. Pour plus d'informations sur la configuration des scripts bootstrap personnalisés, consultezActions de bootstrap personnalisées.

    Vérifiez le /var/log/cfn-init.log fichier. Vers la fin de ce journal, des informations relatives à l'exécution du OnNodeStart script, notamment au téléchargement, peuvent s'afficher après le Running command runpreinstall message.

failureCode est OnNodeStartFailure

  • Pourquoi a-t-il échoué ?

    Vous avez fourni un script personnalisé dans la section OnNodeStart du nœud principal de la configuration pour créer un cluster. Cependant, l'utilisation du script personnalisé a échoué lors du déploiement du cluster. Aucune cause immédiate ne peut être déterminée et une enquête supplémentaire est nécessaire.

  • Comment résoudre le problème ?

    Vérifiez le /var/log/cfn-init.log fichier. Vers la fin de ce journal, vous pouvez voir des informations d'exécution relatives au traitement du OnNodeStart script après le Running command runpreinstall message.

failureCode est EbsMountFailure

  • Pourquoi a-t-il échoué ?

    Le volume EBS défini dans la configuration du cluster n'a pas pu être monté.

  • Comment résoudre le problème ?

    Consultez le /var/log/chef-client.log fichier pour obtenir des informations détaillées sur l'échec.

failureCode est EfsMountFailure

  • Pourquoi a-t-il échoué ?

    Le volume Amazon EFS défini dans la configuration du cluster n'a pas pu être monté.

  • Comment résoudre le problème ?

    Si vous avez défini un système de fichiers Amazon EFS existant, assurez-vous que le trafic est autorisé entre le cluster et le système de fichiers. Pour plus d'informations, consultez SharedStorage/EfsSettings/FileSystemId.

    Consultez le /var/log/chef-client.log fichier pour obtenir des informations détaillées sur l'échec.

failureCode est FsxMountFailure

  • Pourquoi a-t-il échoué ?

    Le système de fichiers Amazon FSx défini dans la configuration du cluster n'a pas pu être monté.

  • Comment résoudre le problème ?

    Si vous avez défini un système de fichiers Amazon FSx existant, assurez-vous que le trafic est autorisé entre le cluster et le système de fichiers. Pour plus d'informations, consultez SharedStorage/FsxLustreSettings/FileSystemId.

    Consultez le /var/log/chef-client.log fichier pour obtenir des informations détaillées sur l'échec.

failureCode est RaidMountFailure

  • Pourquoi a-t-il échoué ?

    Les volumes RAID définis dans la configuration du cluster n'ont pas pu être montés.

  • Comment résoudre le problème ?

    Consultez le /var/log/chef-client.log fichier pour obtenir des informations détaillées sur l'échec.

failureCode est AmiVersionMismatch

  • Pourquoi a-t-il échoué ?

    La AWS ParallelCluster version utilisée pour créer l'AMI personnalisée est différente de AWS ParallelCluster celle utilisée pour configurer le cluster. Dans la CloudFormation console, consultez les détails de la CloudFormation pile de clusters et cochez la case « Status Reason for HeadNodeWaitCondition the » pour obtenir des informations supplémentaires sur les AWS ParallelCluster versions et l'AMI. Pour plus d’informations, consultez Afficher AWS CloudFormation les événements sur CREATE_FAILED.

  • Comment résoudre le problème ?

    Assurez-vous que la AWS ParallelCluster version utilisée pour créer l'AMI personnalisée est la même que celle AWS ParallelCluster utilisée pour configurer le cluster. Vous pouvez modifier la version personnalisée de l'AMI ou la version de la pcluster CLI pour les rendre identiques.

failureCode est InvalidAmi

  • Pourquoi a-t-il échoué ?

    L'AMI personnalisée n'est pas valide car elle n'a pas été créée à l'aide de AWS ParallelCluster.

  • Comment résoudre le problème ?

    Utilisez la pcluster build-image commande pour créer une AMI en faisant de votre AMI l'image parent. Pour plus d’informations, consultez pcluster build-image.

failureCodeporte HeadNodeBootstrapFailure la mention « failureReason Impossible de configurer le nœud principal ».

  • Pourquoi a-t-il échoué ?

    Aucune cause immédiate ne peut être déterminée et une enquête supplémentaire est nécessaire. Par exemple, il se peut que le cluster soit protégé, ce qui peut être dû à un échec du provisionnement du parc informatique statique.

  • Comment résoudre le problème ?

    Consultez le /var/log/chef-client.log. fichier pour obtenir des informations détaillées sur l'échec.

    Note

    Si vous voyez RuntimeError une exceptionCluster state has been set to PROTECTED mode due to failures detected in static node provisioning, le cluster est protégé. Pour plus d’informations, consultez Comment déboguer le mode protégé.

failureCodeest que HeadNodeBootstrapFailure le délai de création failureReason du cluster est expiré.

  • Pourquoi a-t-il échoué ?

    Par défaut, la création du cluster est limitée à 30 minutes. Si la création du cluster n'est pas terminée dans ce délai, la création du cluster échoue avec une erreur de temporisation. La création du cluster peut être interrompue pour différentes raisons. Par exemple, les délais d'expiration peuvent être dus à un échec de création d'un nœud principal, à un problème réseau, à l'exécution de scripts personnalisés trop longs dans le nœud principal, à une erreur dans un script personnalisé exécuté dans les nœuds de calcul ou à de longs délais d'attente pour le provisionnement du nœud de calcul. Aucune cause immédiate ne peut être déterminée et une enquête supplémentaire est nécessaire.

  • Comment résoudre le problème ?

    Consultez les /var/log/chef-client.log fichiers /var/log/cfn-init.log et pour obtenir des informations détaillées sur les défaillances. Pour plus d'informations sur AWS ParallelCluster les journaux et sur la façon de les obtenir, consultez Journaux clés pour le débogage etRécupération et conservation des journaux.

    Vous découvrirez peut-être ce qui suit dans ces journaux.

    • Vu Waiting for static fleet capacity provisioning vers la fin du chef-client.log

      Cela indique que le délai de création du cluster a expiré lors de l'attente du démarrage des nœuds statiques. Pour plus d’informations, consultez Observation des erreurs lors de l'initialisation des nœuds de calcul.

    • Le script Seeing OnNodeConfigured ou OnNodeStart Head Node n'est pas terminé à la fin du cfn-init.log

      Cela indique que l'exécution du script OnNodeConfigured ou du script OnNodeStart personnalisé a pris du temps et a provoqué une erreur de temporisation. Vérifiez que votre script personnalisé ne présente aucun problème susceptible de provoquer son exécution prolongée. Si l'exécution de votre script personnalisé prend du temps, pensez à modifier le délai d'expiration en ajoutant une DevSettings section au fichier de configuration de votre cluster, comme illustré dans l'exemple suivant :

      DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
    • Impossible de trouver les journaux ou le nœud principal n'a pas été créé correctement

      Il est possible que le nœud principal n'ait pas été créé correctement et que les journaux soient introuvables. Dans la CloudFormation console, consultez les détails de la pile de clusters pour vérifier s'il existe des informations supplémentaires sur les défaillances.

failureCodeest HeadNodeBootstrapFailure associé à failureReason Failed to bootstrap the head node.

  • Pourquoi a-t-il échoué ?

    Aucune cause immédiate ne peut être déterminée et une enquête supplémentaire est nécessaire.

  • Comment résoudre le problème ?

    Vérifiez les /var/log/chef-client.log fichiers /var/log/cfn-init.log et.

failureCode est ResourceCreationFailure

  • Pourquoi a-t-il échoué ?

    La création de certaines ressources a échoué lors du processus de création du cluster. La panne peut survenir pour diverses raisons. Par exemple, les échecs de création de ressources peuvent être dus à des problèmes de capacité ou à une politique IAM mal configurée.

  • Comment résoudre le problème ?

    Dans la CloudFormation console, consultez la pile de clusters pour vérifier les détails supplémentaires relatifs à l'échec de création de ressources.

failureCode est ClusterCreationFailure

  • Pourquoi a-t-il échoué ?

    Aucune cause immédiate ne peut être déterminée et une enquête supplémentaire est nécessaire.

  • Comment résoudre le problème ?

    Dans la CloudFormation console, consultez la pile du cluster et vérifiez la présence de Status Reason HeadNodeWaitCondition pour trouver des informations supplémentaires sur les défaillances.

    Vérifiez les /var/log/chef-client.log fichiers /var/log/cfn-init.log et.

Voir WaitCondition timed out... dans la CloudFormation pile

Pour plus d’informations, consultez failureCodeest que HeadNodeBootstrapFailure le délai de création failureReason du cluster est expiré..

Voir Resource creation cancelled dans la CloudFormation pile

Pour plus d’informations, consultez failureCode est ResourceCreationFailure.

Erreurs Failed to run cfn-init... visibles ou autres dans la AWS CloudFormation pile

Consultez le /var/log/cfn-init.log et /var/log/chef-client.log pour obtenir des informations supplémentaires sur les défaillances.

Voir chef-client.log se termine par INFO: Waiting for static fleet capacity provisioning

Cela est lié au délai de création du cluster lorsque vous attendez que les nœuds statiques s'allument. Pour plus d’informations, consultez Observation des erreurs lors de l'initialisation des nœuds de calcul.

Voyant Failed to run preinstall or postinstall in cfn-init.log

Vous avez un OnNodeStart script OnNodeConfigured or dans la HeadNode section de configuration du cluster. Le script ne fonctionne pas correctement. Consultez le /var/log/cfn-init.log fichier pour obtenir des informations détaillées sur les erreurs de script personnalisées.

Voir This AMI was created with xxx, but is trying to be used with xxx... dans la CloudFormation pile

Pour plus d’informations, consultez failureCode est AmiVersionMismatch.

Voir This AMI was not baked by AWS ParallelCluster... dans la CloudFormation pile

Pour plus d’informations, consultez failureCode est InvalidAmi.

Voir que pcluster create-cluster la commande ne s'exécute pas localement

Consultez le fichier ~/.parallelcluster/pcluster-cli.log de votre système de fichiers local pour obtenir des informations sur les défaillances.

Support supplémentaire

Suivez les instructions de dépannage dansRésolution des problèmes de déploiement de clusters.

Vérifiez si votre scénario est couvert dans la section Problèmes GitHub connus AWS ParallelCluster sur le site On GitHub.

Pour obtenir une assistance supplémentaire, consultezSupport supplémentaire.