Arbeiten mit Spot-Instances - AWS ParallelCluster

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Arbeiten mit Spot-Instances

AWS ParallelClusterverwendet Spot-Instances, wenn SieSPOT in der Cluster-Konfigurationsdatei SlurmQueuesAwsBatchQueues/CapacityTypeoder/CapacityTypeauf gesetzt haben. Spot-Instances sind kostengünstiger als On-Demand-Instances, sie können jedoch unterbrochen werden. Es kann hilfreich sein, Benachrichtigungen über Spot-Instance-Unterbrechungen nutzen. Diese stellen zwei Minuten, bevor Amazon EC2 Ihre Spot-Instance beenden muss, eine Warnmeldung bereit. Weitere Informationen finden Sie unter Benachrichtigungen über Spot-Instance-Unterbrechungen im Amazon EC2 EC2-Benutzerhandbuch für LinInstances. Informationen zur AwsBatchQueuesFunktionsweise mit Spot-Instances finden Sie im AWS BatchBenutzerhandbuch unter Rechenressourcen.

DerAWS ParallelCluster konfigurierte Scheduler weist Rechenressourcen in Warteschlangen mit Spot-Instances Jobs zu, genauso wie er Jobs Rechenressourcen in Warteschlangen mit On-Demand-Instances zuweist.

Wenn Sie Spot-Instances verwenden, muss eine AWSServiceRoleForEC2Spot servicegebundene Rolle in Ihrem Konto bereit. Führen Sie den folgenden Befehl ausAWS CLI, um diese Rolle in Ihrem Konto über die zu erstellen:

$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

Weitere Informationen finden Sie unter Servicegebundene Rolle für Spot-Instance-Unterbrechungen im Amazon EC2 EC2-Benutzerhandbuch für LinInstances.

In den folgenden Abschnitten werden drei Szenarien beschrieben, in denen Spot-Instances bei der Verwendung unterbrochen werden können SlurmQueues.

Szenario 1: Spot-Instance ohne ausgeführte Aufgaben wird unterbrochen

Wenn diese Unterbrechung auftritt, wirdAWS ParallelCluster versucht, die Instanz zu ersetzen, wenn die Scheduler-Warteschlange ausstehende Jobs enthält, für die zusätzliche Instanzen erforderlich sind, oder wenn die Anzahl der aktiven Instanzen niedriger als SlurmQueues/ComputeResources/ist MinCount. Wenn keine neuen Instanzen bereitgestellt werdenAWS ParallelCluster können, wird eine Anfrage für neue Instanzen regelmäßig wiederholt.

Szenario 2: Spot-Instance mit Einzelknotenaufgaben wird unterbrochen

Der Job schlägt mit einem Statuscode von fehlNODE_FAIL, und der Job wird in die Warteschlange gestellt (sofern--no-requeue er nicht bei der Übermittlung des Jobs angegeben wurde). Wenn der Knoten ein statischer Knoten ist, wird er ersetzt. Wenn der Knoten ein dynamischer Knoten ist, wird der Knoten beendet und zurückgesetzt. Weitere Informationensbatch, einschließlich des--no-requeue Parameters, finden Sie sbatchin der Slurm-Dokumentation.

Szenario 3: Spot-Instance, auf der Aufgaben mit mehreren Knoten ausgeführt werden, wird unterbrochen

Der Job schlägt mit dem Bundesstaatencode fehlNODE_FAIL, und der Job wird in die Warteschlange gestellt (sofern--no-requeue er nicht bei der Einreichung des Jobs angegeben wurde). Wenn der Knoten ein statischer Knoten ist, wird er ersetzt. Wenn der Knoten ein dynamischer Knoten ist, wird der Knoten beendet und zurückgesetzt. Andere Knoten, die die beendeten Jobs ausgeführt haben, wurden möglicherweise anderen ausstehenden Aufträgen zugewiesen oder nach Ablauf der konfigurierten SlurmSettings/ScaledownIdletime-Zeit herunterskaliert.

Weitere Informationen über Spot-Instances finden Sie unter Spot-Instances im Amazon EC2-Benutzerhandbuch für Linux-Instances.