Behebung von Problemen in Clustern mit AWS Batch Integration - AWS ParallelCluster

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Behebung von Problemen in Clustern mit AWS Batch Integration

Dieser Abschnitt ist relevant für Cluster mit AWS Batch Scheduler-Integration.

Probleme mit dem Hauptknoten

Sie können Probleme mit der Einrichtung des Kopfknotens auf die gleiche Weise wie bei einem Slurm Cluster beheben (mit Ausnahme Slurm bestimmter Protokolle). Weitere Informationen zu diesen Problemen finden Sie unter Hauptknoten.

Probleme mit der Datenverarbeitung

AWS Batch verwaltet die Skalierungs- und Rechenaspekte Ihrer Dienste. Wenn Sie auf Probleme im Zusammenhang mit der Datenverarbeitung stoßen, finden Sie in der Dokumentation AWS Batch zur Fehlerbehebung Hilfe.

Fehlschläge Job

Wenn ein Job fehlschlägt, können Sie den awsbout Befehl ausführen, um die Jobausgabe abzurufen. Sie können den awsbstat Befehl auch ausführen, um einen Link zu den von Amazon gespeicherten Jobprotokollen zu erhalten CloudWatch.

Verbindungstimeout bei Endpunkt-URL-Fehler

Wenn parallel Jobs mit mehreren Knoten mit folgendem Fehler fehlschlagen: Connect timeout on endpoint URL

  • Überprüfen Sie im awsbout Ausgabelog, ob der Job parallel zur Ausgabe mehrere Knoten hat: Detected 3/3 compute nodes. Waiting for all compute nodes to start.

  • Überprüfen Sie, ob das Subnetz der Rechenknoten öffentlich ist.

parallel Jobs mit mehreren Knoten unterstützen nicht die Verwendung von öffentlichen Subnetzen bei der Verwendung AWS Batch von. AWS ParallelCluster Verwenden Sie ein privates Subnetz für Ihre Rechenknoten und Jobs. Weitere Informationen finden Sie im AWS Batch Benutzerhandbuch unter Überlegungen zur Rechenumgebung. Informationen zur Konfiguration eines privaten Subnetzes für Ihre Rechenknoten finden Sie unterAWS ParallelClustermitAWS Batch Scheduler.