Starten Sie Instances mit Capacity Blocks (CB) - AWS ParallelCluster

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Starten Sie Instances mit Capacity Blocks (CB)

AWS ParallelCluster unterstützt On-Demand-Kapazitätsreservierungen (ODCR) und Kapazitätsblöcke (CB) für Machine Learning. Im Gegensatz zu ODCR kann CB eine future Startzeit haben und ist zeitgebunden. Weitere Informationen zum Starten mit ODCR finden Sie unter Starten von Instances mit On-Demand-Kapazitätsreservierungen (ODCR).

Verwenden von CB mit AWS ParallelCluster

Um Ihre neuen oder vorhandenen Cluster für die Verwendung eines CB zu konfigurieren, benötigen Sie zunächst eine gültige CB in Ihrem AWS Konto. Sie können das AWS Management Console, oder SDK verwenden AWS Command Line Interface, um ein verfügbares CB zu finden und zu kaufen, indem Sie der offiziellen Dokumentation folgen. Sobald Sie über einen gültigen CB verfügen, können Sie den CB Amazon Resource Name (ARN) und die zugehörigen Parameter in Ihrer AWS ParallelCluster Konfigurationsdatei festlegen. Weitere Informationen finden Sie unter Kapazitätsblöcke (CB) suchen und kaufen

CB in der Cluster-Konfiguration

Um einen CB für eine bestimmte Warteschlange zu verwenden, müssen Sie den CapacityReservationId Parameter verwenden. Konfigurieren Sie es mit einer vorhandenen CB-ID. Sie können den CB-ARN von dem AWS Management Console AWS CLI, oder SDK beziehen, mit dem Sie den CB erstellt haben.

Sie müssen CapacityType = CAPACITY_BLOCK für die Warteschlange festlegen, in der Sie den CB verwenden möchten. Stellen Sie es auf die InstanceType Rechenressource ein (derselbe Amazon Elastic Compute Cloud-Instance-Typ wie der CB).

Wenn auf Rechenressourcenebene angegeben CapacityReservationId wird, InstanceType ist dies optional, da es automatisch aus der Reservierung abgerufen wird.

Bei Verwendung CapacityType = CAPACITY_BLOCK MaxCount muss der Wert gleich oder MinCount größer als 0 sein, da alle Instanzen, die Teil der CB-Reservierung sind, als statische Knoten verwaltet werden.

Bei der Clustererstellung wartet der Hauptknoten darauf, dass alle statischen Knoten bereit sind, bevor er den Erfolg der Clustererstellung signalisiert. Bei der Verwendung werden die KnotenCapacityType = CAPACITY_BLOCK, die Teil der zugewiesenen Rechenressourcen sind, bei dieser Prüfung jedoch nicht berücksichtigt. Der Cluster wird auch dann erstellt, wenn nicht alle konfigurierten Cluster aktiv sind.

Der folgende Ausschnitt aus der Konfigurationsdatei zeigt die Parameter, die in der AWS ParallelCluster Konfigurationsdatei aktiviert werden müssen.

SlurmQueues: - Name: string CapacityType: CAPACITY_BLOCK ComputeResources: - Name: string InstanceType: String (EC2 Instance type of the CB) MinCount: integer (<= total capacity of the CB) MaxCount: integer (equal to MinCount) CapacityReservationTarget: CapacityReservationId: String (CB id)

Wie AWS ParallelCluster verwendet Capacity Blocks (CB)

AWS ParallelCluster verwaltet statische Knoten, die mit auf besondere Weise verknüpft sind. AWS ParallelCluster erstellt einen Cluster, auch wenn der CB noch nicht aktiv ist, und Instances werden automatisch gestartet, sobald der CB aktiv ist.

Das Tool Slurm Knoten, die Rechenressourcen entsprechen, mit denen sie verknüpft sind und noch nicht aktiv sind, werden solange gewartet, bis sie die CB-Startzeit erreichen. Slurm Knoten befinden sich weiterhin im Reservierungs-/Wartungszustand und sind dem Slurm-Admin-Benutzer zugeordnet. Das bedeutet, dass sie Jobs annehmen können, aber die Jobs bleiben bestehen, pending bis die Reservierung aufgehoben wird.

AWS ParallelCluster aktualisiert sich automatisch Slurm reserviert die zugehörigen CB-Knoten und versetzt sie in den Wartungsmodus (entsprechend dem CB-Status). Wenn der CB aktiv ist, Slurm Die Reservierung wird entfernt, die Knoten werden gestartet und stehen für die ausstehenden Jobs oder für die Einreichung neuer Jobs zur Verfügung.

Wenn die CB-Endzeit erreicht ist, werden die Knoten wieder auf eine reservation/maintenance state. It’s up to users to resubmit/requeue the jobs to a new queue/compute -Ressource verschoben, wenn CB nicht mehr aktiv ist und Instances beendet werden.