Es wird versucht, einen Cluster zu erstellen

Wenn Sie AWS ParallelCluster Version 3.5.0 und höher zum Erstellen eines Clusters verwenden und die Clustererstellung mit der --rollback-on-failure Einstellung auf fehlgeschlagen istfalse, verwenden Sie den pcluster describe-cluster CLI-Befehl, um Status- und Fehlerinformationen abzurufen. In diesem Fall ist clusterStatus CREATE_FAILED die erwartete pcluster describe-cluster Ausgabe. Suchen Sie im failures Abschnitt in der Ausgabe nach dem failureCode undfailureReason. Suchen Sie dann im folgenden Abschnitt nach dem passendenfailureCode, um zusätzliche Hilfe zur Fehlerbehebung zu erhalten. Weitere Informationen finden Sie unter pcluster describe-cluster.

In den folgenden Abschnitten empfehlen wir Ihnen, die Protokolle auf dem Hauptknoten zu überprüfen, z. B. die /var/log/chef-client.log Dateien /var/log/cfn-init.log und. Weitere Informationen zu AWS ParallelCluster Protokollen und deren Anzeige finden Sie unter Wichtige Protokolle für das Debuggen undProtokolle abrufen und aufbewahren.

Wenn Sie noch keinen habenfailureCode, navigieren Sie zur AWS CloudFormation Konsole, um den Cluster-Stack anzuzeigen. Suchen Sie Status Reason nach Fehlern auf anderen Ressourcen, um weitere Fehlerdetails zu finden. HeadNodeWaitCondition Weitere Informationen finden Sie unter AWS CloudFormation Ereignisse anzeigen auf CREATE_FAILED. Überprüfen Sie die /var/log/chef-client.log Dateien /var/log/cfn-init.log und auf dem Hauptknoten.

`failureCode` ist `OnNodeConfiguredExecutionFailure`

Warum ist es gescheitert?

Sie haben in OnNodeConfigured der Konfiguration im Abschnitt „Hauptknoten“ ein benutzerdefiniertes Skript zur Erstellung eines Clusters bereitgestellt. Das benutzerdefinierte Skript konnte jedoch nicht ausgeführt werden.
Wie löst man das Problem?

In der /var/log/cfn-init.log Datei erfahren Sie mehr über den Fehler und darüber, wie Sie das Problem in Ihrem benutzerdefinierten Skript beheben können. Gegen Ende dieses Protokolls werden nach der Running command runpostinstall Meldung möglicherweise Informationen zur Ausführung des OnNodeConfigured Skripts angezeigt.

`failureCode` ist `OnNodeConfiguredDownloadFailure`

Warum ist es gescheitert?

Sie haben in OnNodeConfigured der Konfiguration im Abschnitt „Hauptknoten“ ein benutzerdefiniertes Skript zur Erstellung eines Clusters bereitgestellt. Das benutzerdefinierte Skript konnte jedoch nicht heruntergeladen werden.
Wie löst man das Problem?

Stellen Sie sicher, dass die URL gültig ist und dass der Zugriff korrekt konfiguriert ist. Weitere Informationen zur Konfiguration von benutzerdefinierten Bootstrap-Skripten finden Sie unterBenutzerdefinierte Bootstrap-Aktionen.

Überprüfen Sie die /var/log/cfn-init.log Datei. Gegen Ende dieses Protokolls werden nach der Running command runpostinstall Meldung möglicherweise Ausführungsinformationen zur OnNodeConfigured Skriptverarbeitung, einschließlich des Herunterladens, angezeigt.

`failureCode` ist `OnNodeConfiguredFailure`

Warum ist es fehlgeschlagen?

Sie haben in OnNodeConfigured der Konfiguration im Abschnitt „Hauptknoten“ ein benutzerdefiniertes Skript zur Erstellung eines Clusters bereitgestellt. Die Verwendung des benutzerdefinierten Skripts schlug jedoch in der Clusterbereitstellung fehl. Eine unmittelbare Ursache kann nicht ermittelt werden und es sind weitere Untersuchungen erforderlich.
Wie löst man das Problem?

Überprüfe die /var/log/cfn-init.log Datei. Gegen Ende dieses Protokolls werden nach der Running command runpostinstall Meldung möglicherweise Ausführungsinformationen zur OnNodeConfigured Skriptverarbeitung angezeigt.

`failureCode` ist `OnNodeStartExecutionFailure`

Warum ist es fehlgeschlagen?

Sie haben in OnNodeStart der Konfiguration im Abschnitt „Hauptknoten“ ein benutzerdefiniertes Skript zur Erstellung eines Clusters bereitgestellt. Das benutzerdefinierte Skript konnte jedoch nicht ausgeführt werden.
Wie löst man das Problem?

In der /var/log/cfn-init.log Datei erfahren Sie mehr über den Fehler und darüber, wie Sie das Problem in Ihrem benutzerdefinierten Skript beheben können. Gegen Ende dieses Protokolls werden nach der Running command runpreinstall Meldung möglicherweise Informationen zur Ausführung des OnNodeStart Skripts angezeigt.

`failureCode` ist `OnNodeStartDownloadFailure`

Warum ist es gescheitert?

Sie haben in OnNodeStart der Konfiguration im Abschnitt „Hauptknoten“ ein benutzerdefiniertes Skript zur Erstellung eines Clusters bereitgestellt. Das benutzerdefinierte Skript konnte jedoch nicht heruntergeladen werden.
Wie löst man das Problem?

Stellen Sie sicher, dass die URL gültig ist und dass der Zugriff korrekt konfiguriert ist. Weitere Informationen zur Konfiguration von benutzerdefinierten Bootstrap-Skripten finden Sie unterBenutzerdefinierte Bootstrap-Aktionen.

Überprüfen Sie die /var/log/cfn-init.log Datei. Gegen Ende dieses Protokolls werden nach der Running command runpreinstall Meldung möglicherweise Ausführungsinformationen zur OnNodeStart Skriptverarbeitung, einschließlich des Herunterladens, angezeigt.

`failureCode` ist `OnNodeStartFailure`

Warum ist es fehlgeschlagen?

Sie haben in der Konfiguration im Abschnitt OnNodeStart des Hauptknotens ein benutzerdefiniertes Skript zur Erstellung eines Clusters bereitgestellt. Die Verwendung des benutzerdefinierten Skripts schlug jedoch in der Clusterbereitstellung fehl. Eine unmittelbare Ursache kann nicht ermittelt werden und es sind weitere Untersuchungen erforderlich.
Wie löst man das Problem?

Überprüfe die /var/log/cfn-init.log Datei. Gegen Ende dieses Protokolls werden nach der Running command runpreinstall Meldung möglicherweise Ausführungsinformationen zur OnNodeStart Skriptverarbeitung angezeigt.

`failureCode` ist `EbsMountFailure`

Warum ist es fehlgeschlagen?

Das in der Clusterkonfiguration definierte EBS-Volume konnte nicht bereitgestellt werden.
Wie löst man das Problem?

Überprüfen Sie die /var/log/chef-client.log Datei auf Fehlerdetails.

`failureCode` ist `EfsMountFailure`

Warum ist es gescheitert?

Das in der Cluster-Konfiguration definierte Amazon EFS-Volume konnte nicht bereitgestellt werden.
Wie löst man das Problem?

Wenn Sie ein vorhandenes Amazon EFS-Dateisystem definiert haben, stellen Sie sicher, dass Datenverkehr zwischen dem Cluster und dem Dateisystem zulässig ist. Weitere Informationen finden Sie unter SharedStorage/EfsSettings/FileSystemId.

Überprüfen Sie die /var/log/chef-client.log Datei auf Fehlerdetails.

`failureCode` ist `FsxMountFailure`

Warum ist es gescheitert?

Das in der Cluster-Konfiguration definierte Amazon FSx-Dateisystem konnte nicht bereitgestellt werden.
Wie löst man das Problem?

Wenn Sie ein vorhandenes Amazon FSx-Dateisystem definiert haben, stellen Sie sicher, dass Datenverkehr zwischen dem Cluster und dem Dateisystem zulässig ist. Weitere Informationen finden Sie unter SharedStorage/FsxLustreSettings/FileSystemId.

Überprüfen Sie die /var/log/chef-client.log Datei auf Fehlerdetails.

`failureCode` ist `RaidMountFailure`

Warum ist es gescheitert?

Die in der Cluster-Konfiguration definierten RAID-Volumes konnten nicht bereitgestellt werden.
Wie löst man das Problem?

Überprüfen Sie die /var/log/chef-client.log Datei auf Fehlerdetails.

`failureCode` ist `AmiVersionMismatch`

Warum ist es gescheitert?

Die AWS ParallelCluster Version, die zum Erstellen des benutzerdefinierten AMI verwendet wurde, unterscheidet sich von der AWS ParallelCluster Version, die zur Konfiguration des Clusters verwendet wurde. Sehen Sie sich in der CloudFormation Konsole die CloudFormation Cluster-Stack-Details an und klicken Status Reason Sie auf dieHeadNodeWaitCondition, um zusätzliche Informationen zu den AWS ParallelCluster Versionen und dem AMI zu erhalten. Weitere Informationen finden Sie unter AWS CloudFormation Ereignisse anzeigen auf CREATE_FAILED.
Wie löst man das Problem?

Stellen Sie sicher, dass es sich bei der AWS ParallelCluster Version, die zum Erstellen des benutzerdefinierten AMI verwendet wurde, um dieselbe AWS ParallelCluster Version handelt, die zur Konfiguration des Clusters verwendet wurde. Sie können entweder die benutzerdefinierte AMI-Version oder die pcluster CLI-Version ändern, um sie identisch zu machen.

`failureCode` ist `InvalidAmi`

Warum ist es gescheitert?

Das benutzerdefinierte AMI ist ungültig, da es nicht mit erstellt wurde AWS ParallelCluster.
Wie löst man das Problem?

Verwenden Sie den pcluster build-image Befehl, um ein AMI zu erstellen, indem Sie Ihr AMI zum übergeordneten Image machen. Weitere Informationen finden Sie unter pcluster build-image.

`failureCode`lautet „`failureReason`Fehler `HeadNodeBootstrapFailure` beim Einrichten des Hauptknotens“.

Warum ist es gescheitert?

Eine unmittelbare Ursache kann nicht ermittelt werden und zusätzliche Untersuchungen sind erforderlich. Es könnte beispielsweise sein, dass sich der Cluster im geschützten Status befindet, und dies könnte darauf zurückzuführen sein, dass die statische Rechenflotte nicht bereitgestellt werden konnte.
Wie löst man das Problem?

Überprüfen Sie die /var/log/chef-client.log. Datei auf Fehlerdetails.

Anmerkung
Wenn Sie eine RuntimeError Ausnahme sehenCluster state has been set to PROTECTED mode due to failures detected in static node provisioning, befindet sich der Cluster im geschützten Status. Weitere Informationen finden Sie unter So debuggen Sie den geschützten Modus.

`failureCode`ist wegen des `failureReason` Timeouts `HeadNodeBootstrapFailure` bei der Clustererstellung abgelaufen.

Warum ist es gescheitert?

Standardmäßig gibt es ein Zeitlimit von 30 Minuten, bis die Clustererstellung abgeschlossen ist. Wenn die Clustererstellung nicht innerhalb dieses Zeitrahmens abgeschlossen wurde, schlägt die Clustererstellung mit einem Timeoutfehler fehl. Bei der Clustererstellung kann es aus verschiedenen Gründen zu einem Timeout kommen. Timeoutfehler können beispielsweise durch einen Fehler bei der Erstellung eines Hauptknotens, ein Netzwerkproblem, benutzerdefinierte Skripts, deren Ausführung im Hauptknoten zu lange dauert, einen Fehler in einem benutzerdefinierten Skript, das in Rechenknoten ausgeführt wird, oder lange Wartezeiten bei der Bereitstellung von Rechenknoten verursacht werden. Eine unmittelbare Ursache kann nicht ermittelt werden und zusätzliche Untersuchungen sind erforderlich.
Wie löst man das Problem?

Einzelheiten zum Fehler finden Sie in den /var/log/chef-client.log Dateien /var/log/cfn-init.log und. Weitere Informationen zu AWS ParallelCluster Protokollen und deren Abruf finden Sie unter Wichtige Protokolle für das Debuggen undProtokolle abrufen und aufbewahren.
Möglicherweise finden Sie in diesen Protokollen Folgendes.
- Ich sehe Waiting for static fleet capacity provisioning fast das Ende des chef-client.log
  
  Dies deutet darauf hin, dass bei der Clustererstellung eine Zeitüberschreitung aufgetreten ist, als auf das Hochfahren statischer Knoten gewartet wurde. Weitere Informationen finden Sie unter Fehler bei der Initialisierung von Compute-Knoten werden angezeigt.
- Das Skript für Seeing OnNodeConfigured oder OnNodeStart Head Node ist am Ende des cfn-init.log
  
  Dies weist darauf hin, dass die Ausführung des Skripts OnNodeConfigured oder des OnNodeStart benutzerdefinierten Skripts lange gedauert hat und einen Timeoutfehler verursacht hat. Überprüfen Sie Ihr benutzerdefiniertes Skript auf Probleme, die dazu führen könnten, dass es über einen längeren Zeitraum ausgeführt wird. Wenn die Ausführung Ihres benutzerdefinierten Skripts viel Zeit in Anspruch nimmt, sollten Sie erwägen, das Timeout-Limit zu ändern, indem Sie Ihrer Cluster-Konfigurationsdatei einen DevSettings Abschnitt hinzufügen, wie im folgenden Beispiel gezeigt:
```
DevSettings:
  Timeouts:
    HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
```
- Die Protokolle können nicht gefunden werden, oder der Hauptknoten wurde nicht erfolgreich erstellt
  
  Es ist möglich, dass der Hauptknoten nicht erfolgreich erstellt wurde und die Protokolle nicht gefunden werden können. Sehen Sie sich in der CloudFormation Konsole die Cluster-Stack-Details an, um nach weiteren Fehlerdetails zu suchen.

`failureCode`lautet „`failureReason`Fehler `HeadNodeBootstrapFailure` beim Bootstrapping des Hauptknotens“.

Warum ist es gescheitert?

Eine unmittelbare Ursache kann nicht ermittelt werden und zusätzliche Untersuchungen sind erforderlich.
Wie löst man das Problem?

Überprüfen Sie die /var/log/chef-client.log Dateien /var/log/cfn-init.log und.

`failureCode` ist `ResourceCreationFailure`

Warum ist es gescheitert?

Die Erstellung einiger Ressourcen ist während der Clustererstellung fehlgeschlagen. Der Fehler kann aus verschiedenen Gründen auftreten. Fehler bei der Ressourcenerstellung können beispielsweise durch Kapazitätsprobleme oder eine falsch konfigurierte IAM-Richtlinie verursacht werden.
Wie löst man das Problem?

Sehen Sie sich in der CloudFormation Konsole den Cluster-Stack an, um nach weiteren Informationen zu Fehlern bei der Ressourcenerstellung zu suchen.

`failureCode` ist `ClusterCreationFailure`

Warum ist es gescheitert?

Eine unmittelbare Ursache kann nicht ermittelt werden und zusätzliche Untersuchungen sind erforderlich.
Wie löst man das Problem?

Sehen Sie sich in der CloudFormation Konsole den Cluster-Stack an und suchen Sie HeadNodeWaitCondition nach weiteren Fehlerdetails. Status Reason

Überprüfen Sie die /var/log/chef-client.log Dateien /var/log/cfn-init.log und.

`WaitCondition timed out...`Im CloudFormation Stapel sehen

Weitere Informationen finden Sie unter failureCodeist wegen des failureReason Timeouts HeadNodeBootstrapFailure bei der Clustererstellung abgelaufen..

`Resource creation cancelled`Im CloudFormation Stapel sehen

Weitere Informationen finden Sie unter failureCode ist ResourceCreationFailure.

Sehen `Failed to run cfn-init...` oder andere Fehler im AWS CloudFormation Stapel

Weitere Fehlerdetails finden Sie unter /var/log/cfn-init.log und/var/log/chef-client.log.

Sehen `chef-client.log` endet mit `INFO: Waiting for static fleet capacity provisioning`

Dies hängt mit dem Timeout bei der Clustererstellung zusammen, wenn auf das Hochfahren statischer Knoten gewartet wird. Weitere Informationen finden Sie unter Fehler bei der Initialisierung von Compute-Knoten werden angezeigt.

Sehen `Failed to run preinstall or postinstall in cfn-init.log`

Sie haben ein OnNodeConfigured OnNodeStart OR-Skript im HeadNode Abschnitt Cluster-Konfiguration. Das Skript funktioniert nicht richtig. Suchen Sie in der /var/log/cfn-init.log Datei nach benutzerdefinierten Skriptfehlerdetails.

`This AMI was created with xxx, but is trying to be used with xxx...`Im CloudFormation Stapel sehen

Weitere Informationen finden Sie unter failureCode ist AmiVersionMismatch.

`This AMI was not baked by AWS ParallelCluster...`Im CloudFormation Stapel sehen

Weitere Informationen finden Sie unter failureCode ist InvalidAmi.

Der `pcluster create-cluster` Befehl Seeing kann nicht lokal ausgeführt werden

Suchen Sie ~/.parallelcluster/pcluster-cli.log in Ihrem lokalen Dateisystem nach Fehlerdetails.

Zusätzliche Unterstützung

Folgen Sie den Anleitungen zur Fehlerbehebung unterBehebung von Problemen bei der Clusterbereitstellung.

Prüfen Sie, ob Ihr Szenario unter GitHub Bekannte Probleme unter AWS ParallelCluster on behandelt wird GitHub.

Zusätzliche Unterstützung finden Sie unterZusätzliche Unterstützung.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

AWS ParallelCluster Problembehebung

Ich versuche, einen Job auszuführen

Es wird versucht, einen Cluster zu erstellen

failureCode ist OnNodeConfiguredExecutionFailure

failureCode ist OnNodeConfiguredDownloadFailure

failureCode ist OnNodeConfiguredFailure

failureCode ist OnNodeStartExecutionFailure

failureCode ist OnNodeStartDownloadFailure

failureCode ist OnNodeStartFailure

failureCode ist EbsMountFailure

failureCode ist EfsMountFailure

failureCode ist FsxMountFailure

failureCode ist RaidMountFailure

failureCode ist AmiVersionMismatch

failureCode ist InvalidAmi

failureCodelautet „failureReasonFehler HeadNodeBootstrapFailure beim Einrichten des Hauptknotens“.

Anmerkung

failureCodeist wegen des failureReason Timeouts HeadNodeBootstrapFailure bei der Clustererstellung abgelaufen.

failureCodelautet „failureReasonFehler HeadNodeBootstrapFailure beim Bootstrapping des Hauptknotens“.

failureCode ist ResourceCreationFailure

failureCode ist ClusterCreationFailure

WaitCondition timed out...Im CloudFormation Stapel sehen

Resource creation cancelledIm CloudFormation Stapel sehen

Sehen Failed to run cfn-init... oder andere Fehler im AWS CloudFormation Stapel

Sehen chef-client.log endet mit INFO: Waiting for static fleet capacity provisioning

Sehen Failed to run preinstall or postinstall in cfn-init.log

This AMI was created with xxx, but is trying to be used with xxx...Im CloudFormation Stapel sehen

This AMI was not baked by AWS ParallelCluster...Im CloudFormation Stapel sehen

Der pcluster create-cluster Befehl Seeing kann nicht lokal ausgeführt werden