Erkunden Sie die Cluster-Umgebung in AWS PCS - AWS PCS

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erkunden Sie die Cluster-Umgebung in AWS PCS

Nachdem Sie sich beim Cluster angemeldet haben, können Sie Shell-Befehle ausführen. Sie können beispielsweise Benutzer wechseln, mit Daten auf gemeinsam genutzten Dateisystemen arbeiten und mit Slurm interagieren.

Benutzer ändern

Wenn Sie sich mit Session Manager beim Cluster angemeldet haben, sind Sie möglicherweise verbunden alsssm-user. Dies ist ein spezieller Benutzer, der für Session Manager erstellt wurde. Wechseln Sie mit dem folgenden Befehl zum Standardbenutzer auf Amazon Linux 2. Sie müssen dies nicht tun, wenn Sie über eine Verbindung hergestellt habenSSH.

sudo su - ec2-user

Arbeiten Sie mit gemeinsam genutzten Dateisystemen

Sie können mit dem Befehl überprüfen, ob EFS das Dateisystem und die Dateisysteme FSx für Lustre verfügbar sind. df -h Die Ausgabe auf Ihrem Cluster sollte wie folgt aussehen:

[ec2-user@ip-10-3-6-103 ~]$ df -h
Filesystem                 Size  Used Avail Use% Mounted on
devtmpfs                   3.8G     0  3.8G   0% /dev
tmpfs                      3.9G     0  3.9G   0% /dev/shm
tmpfs                      3.9G  556K  3.9G   1% /run
tmpfs                      3.9G     0  3.9G   0% /sys/fs/cgroup
/dev/nvme0n1p1              24G   18G  6.6G  73% /
127.0.0.1:/                8.0E     0  8.0E   0% /home
10.3.132.79@tcp:/zlshxbev  1.2T  7.5M  1.2T   1% /shared
tmpfs                      780M     0  780M   0% /run/user/0
tmpfs                      780M     0  780M   0% /run/user/1000

Das /home Dateisystem mountet 127.0.0.1 und hat eine sehr große Kapazität. Dies ist das EFS Dateisystem, das Sie zu Beginn des Tutorials erstellt haben. Alle hier geschriebenen Dateien sind /home auf allen Knoten im Cluster unter verfügbar.

Das /shared Dateisystem mountet eine private IP und hat eine Kapazität von 1,2 TB. Dies ist das FSx For Lustre-Dateisystem, das Sie zu Beginn des Tutorials erstellt haben. Alle hier geschriebenen Dateien sind /shared auf allen Knoten im Cluster unter verfügbar.

Interagiere mit Slurm

Listet Warteschlangen und Knoten auf

Sie können die Warteschlangen und die Knoten, mit denen sie verknüpft sind, auflisten. sinfo Die Ausgabe Ihres Clusters sollte wie folgt aussehen:

[ec2-user@ip-10-3-6-103 ~]$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
demo         up   infinite      4  idle~ compute-1-[1-4]
[ec2-user@ip-10-3-6-103 ~]$

Notieren Sie sich die benannte Partitiondemo. Ihr Status ist up und sie hat maximal 4 Knoten. Es ist Knoten in der compute-1 Knotengruppe zugeordnet. Wenn Sie die Compute-Knotengruppe bearbeiten und die maximale Anzahl von Instanzen auf 8 erhöhen, würde die Anzahl der Knoten lesen 8 und die Knotenliste würde lesencompute-1-[1-8]. Wenn Sie eine zweite Rechenknotengruppe test mit dem Namen 4 Knoten erstellen und sie der demo Warteschlange hinzufügen würden, würden diese Knoten auch in der Knotenliste angezeigt.

Jobs anzeigen

Sie können alle Jobs in jedem Status auf dem System mit auflistensqueue. Die Ausgabe Ihres Clusters sollte wie folgt aussehen:

[ec2-user@ip-10-3-6-103 ~]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)

Versuchen Sie es später squeue erneut, wenn ein Slurm-Job aussteht oder läuft.