Cluster-Reparaturen bei GPU Fehlern - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Cluster-Reparaturen bei GPU Fehlern

Wenn Sie einen Trainingsjob ausführen, der bei einem fehlschlägtGPU, SageMaker wird eine GPU Integritätsprüfung durchgeführt, um festzustellen, ob der Fehler mit einem GPU Problem zusammenhängt. SageMaker ergreift auf der Grundlage der Ergebnisse der Zustandsprüfung die folgenden Aktionen:

  • Wenn der Fehler behebbar ist und durch einen Neustart der Instanz oder das Zurücksetzen der behoben werden kann, wird die Instanz neu gestartet. GPU SageMaker

  • Wenn der Fehler nicht behebbar ist und durch eine verursacht wird, die ersetzt werden mussGPU, wird die Instanz ersetzt. SageMaker

Die Instanz wird im Rahmen einer SageMaker Cluster-Reparatur entweder ersetzt oder neu gestartet. Während dieses Vorgangs wird in Ihrem Trainingsjobstatus die folgende Meldung angezeigt:

Repairing training cluster due to hardware failure

SageMaker versucht bis zu 10 mehrmals, den Cluster zu reparieren. Wenn die Clusterreparatur erfolgreich ist, SageMaker wird der Trainingsjob automatisch vom vorherigen Checkpoint aus neu gestartet. Wenn die Clusterreparatur fehlschlägt, schlägt auch der Trainingsjob fehl. Der Clusterreparaturprozess wird Ihnen nicht in Rechnung gestellt. Clusterreparaturen werden erst eingeleitet, wenn Ihr Schulungsjob fehlschlägt. Wenn bei einem Warmpool-Cluster ein GPU Problem festgestellt wird, wechselt der Cluster in den Reparaturmodus, um entweder neu zu starten oder die fehlerhafte Instanz zu ersetzen. Nach der Reparatur kann der Cluster weiterhin als Warmpool-Cluster verwendet werden.

Der zuvor beschriebene Prozess zur Reparatur von Clustern und Instanzen ist in der folgenden Abbildung dargestellt:

The cluster and instance repair process.