Arbeiten mit Spot-Instances - AWS ParallelCluster

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Arbeiten mit Spot-Instances

AWS ParallelCluster verwendet Spot-Instances, wenn Sie SPOT in der Cluster-Konfigurationsdatei SlurmQueuesAwsBatchQueues/CapacityTypeoder/CapacityTypeauf gesetzt haben. Spot-Instances sind kostengünstiger als On-Demand-Instances, sie können jedoch unterbrochen werden. Es kann hilfreich sein, Spot-Instance-Unterbrechungsbenachrichtigungen zu nutzen, die eine zweiminütige Warnung anzeigen, bevor Amazon EC2 Ihre Spot-Instance stoppen oder beenden muss. Weitere Informationen finden Sie unter Spot-Instance-Unterbrechungen im Amazon EC2 EC2-Benutzerhandbuch. Informationen zur AwsBatchQueuesFunktionsweise mit Spot-Instances finden Sie unter Compute Resources im AWS Batch Benutzerhandbuch.

Der AWS ParallelCluster konfigurierte Scheduler weist Rechenressourcen in Warteschlangen mit Spot-Instances genauso Jobs zu, wie er Rechenressourcen in Warteschlangen mit On-Demand-Instances Jobs zuweist.

Wenn Sie Spot-Instances verwenden, muss in Ihrem Konto eine AWSServiceRoleForEC2Spot serviceverknüpfte Rolle vorhanden sein. Führen Sie den folgenden Befehl aus AWS CLI, um diese Rolle in Ihrem Konto mithilfe von zu erstellen:

$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

Weitere Informationen finden Sie unter Service-verknüpfte Rolle für Spot-Instance-Anfragen im Amazon EC2 EC2-Benutzerhandbuch.

In den folgenden Abschnitten werden drei Szenarien beschrieben, in denen Spot-Instances bei der Verwendung unterbrochen werden können. SlurmQueues

Szenario 1: Spot-Instance ohne ausgeführte Aufgaben wird unterbrochen

Wenn diese Unterbrechung auftritt, wird AWS ParallelCluster versucht, die Instance zu ersetzen, falls die Scheduler-Warteschlange ausstehende Jobs enthält, für die zusätzliche Instances erforderlich sind, oder wenn die Anzahl der aktiven Instances niedriger als SlurmQueues/ComputeResources/MinCountist. Wenn keine neuen Instanzen bereitgestellt werden AWS ParallelCluster können, wird eine Anfrage für neue Instanzen regelmäßig wiederholt.

Szenario 2: Spot-Instance mit Einzelknotenaufgaben wird unterbrochen

Der Job schlägt mit dem Statuscode von NODE_FAIL fehl und der Job wird in eine Warteschlange gestellt (sofern dies nicht --no-requeue beim Absenden des Jobs angegeben wurde). Wenn es sich bei dem Knoten um einen statischen Knoten handelt, wird er ersetzt. Wenn es sich bei dem Knoten um einen dynamischen Knoten handelt, wird der Knoten beendet und zurückgesetzt. Weitere Informationen zum Themasbatch, einschließlich des --no-requeue Parameters, finden Sie sbatchin der SlurmDokumentation.

Szenario 3: Spot-Instance, auf der Aufgaben mit mehreren Knoten ausgeführt werden, wird unterbrochen

Der Auftrag schlägt mit dem Statuscode von fehlNODE_FAIL, und der Job wird in die Warteschlange gestellt (es sei denn, dies --no-requeue wurde bei der Übermittlung des Jobs angegeben). Wenn es sich bei dem Knoten um einen statischen Knoten handelt, wird er ersetzt. Wenn es sich bei dem Knoten um einen dynamischen Knoten handelt, wird der Knoten beendet und zurückgesetzt. Andere Knoten, auf denen die beendeten Jobs ausgeführt wurden, wurden möglicherweise anderen ausstehenden Jobs zugewiesen oder nach Ablauf der konfigurierten SlurmSettingsScaledownIdletime/-Zeit herunterskaliert.

Weitere Informationen zu Spot-Instances finden Sie unter Spot-Instances im Amazon EC2 EC2-Benutzerhandbuch.