AWS ParallelCluster Prozesse - AWS ParallelCluster

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AWS ParallelCluster Prozesse

Dieser Abschnitt bezieht sich auf Cluster, die mit bereitgestellt werdenSlurm. Bei Verwendung mit diesem Scheduler AWS ParallelCluster verwaltet er die Bereitstellung und Entfernung von Rechenknoten durch Interaktion mit dem zugrundeliegenden Job-Scheduler.

Bei HPC-Clustern, die auf basieren AWS Batch, AWS ParallelCluster hängt von den Funktionen ab, die von der AWS Batch für die Compute-Knotenverwaltung bereitgestellt werden.

clustermgtd

Die folgenden Aufgaben werden vom Cluster-Management-Daemon ausgeführt.

  • Bereinigung inaktiver Partitionen

  • Verwaltung von Slurm Reservierungen und Knoten, die mit Kapazitätsblöcken verknüpft sind (siehe nächster Abschnitt)

  • Statisches Kapazitätsmanagement: Stellen Sie sicher, dass die statische Kapazität immer verfügbar und funktionsfähig ist

  • Synchronisieren Sie den Scheduler mit Amazon EC2.

  • Bereinigung verwaister Instances

  • Stellen Sie den Status des Scheduler-Knotens bei einer Amazon EC2 EC2-Terminierung wieder her, die außerhalb des Suspend-Workflows erfolgt

  • Verwaltung fehlerhafter Amazon EC2 EC2-Instances (fehlgeschlagene Amazon EC2 EC2-Zustandsprüfungen)

  • Verwaltung von geplanten Wartungsereignissen

  • Verwaltung fehlerhafter Scheduler-Knoten (fehlgeschlagene Zustandsprüfungen im Scheduler)

Verwaltung von Slurm Reservierungen und Knoten, die Kapazitätsblöcken zugeordnet sind

ParallelCluster unterstützt On-Demand-Kapazitätsreservierungen (ODCR) und Kapazitätsblöcke für Machine Learning (CB). Im Gegensatz zu ODCR kann CB eine future Startzeit haben und ist zeitgebunden.

Clustermgtd sucht in einer Schleife nach fehlerhaften Knoten und beendet alle ausgefallenen Amazon EC2 EC2-Instances. Dabei werden sie durch neue Instances ersetzt, sofern es sich um statische Knoten handelt.

ParallelCluster verwaltet statische Knoten, die Kapazitätsblöcken zugeordnet sind, unterschiedlich. AWS ParallelCluster erstellt einen Cluster, auch wenn der CB noch nicht aktiv ist, und Instances werden automatisch gestartet, sobald der CB aktiv ist.

Die Slurm Knoten, die den Rechenressourcen entsprechen, die mit noch nicht aktiven CBs verknüpft sind, werden solange gewartet, bis die CB-Startzeit erreicht ist. SlurmDie Knoten verbleiben im Reservierungs-/Wartungsstatus, der dem Slurm Admin-Benutzer zugeordnet ist, was bedeutet, dass sie Jobs annehmen können, aber Jobs bleiben so lange im Status „Ausstehend“, bis die Slurm Reservierung entfernt wird.

Clustermgtd erstellt/löscht automatisch Slurm Reservierungen und setzt die zugehörigen CB-Knoten je nach CB-Status in den Wartungsmodus. Wenn CB aktiv ist, wird die Slurm Reservierung entfernt, die Knoten werden gestartet und stehen dann für ausstehende Jobs oder für neu eingereichte Jobs zur Verfügung.

Wenn die CB-Endzeit erreicht ist, werden die Knoten wieder in den Reservierungs-/Wartungsstatus versetzt. Es liegt an den Benutzern, die Jobs erneut zu senden/in eine neue Warteschleife/Rechenressource zu stellen, wenn CB nicht mehr aktiv ist und Instances beendet werden.

clusterstatusmgtd

Der Cluster-Statusmanagement-Daemon verwaltet die Aktualisierung des Compute-Flottenstatus. Jede Minute ruft es den in einer DynamoDB-Tabelle gespeicherten Flottenstatus ab und verwaltet alle STOP/START-Anfragen.

computemgtd

Compute Management Daemon (computemgtd) -Prozesse werden auf jedem der Cluster-Rechenknoten ausgeführt. Alle fünf (5) Minuten bestätigt der Compute Management Daemon, dass der Hauptknoten erreichbar ist und fehlerfrei ist. Wenn fünf (5) Minuten vergehen, in denen der Hauptknoten nicht erreicht werden kann oder nicht fehlerfrei ist, wird der Rechenknoten heruntergefahren.