Esplora l'ambiente del cluster in AWS PCS - AWS PCS

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esplora l'ambiente del cluster in AWS PCS

Dopo aver effettuato l'accesso al cluster, puoi eseguire i comandi della shell. Ad esempio, puoi cambiare utente, lavorare con i dati su file system condivisi e interagire con Slurm.

Cambia utente

Se hai effettuato l'accesso al cluster utilizzando Session Manager, potresti essere connesso comessm-user. Si tratta di un utente speciale creato per Session Manager. Passa all'utente predefinito su Amazon Linux 2 utilizzando il seguente comando. Non sarà necessario farlo se ti sei connesso tramiteSSH.

sudo su - ec2-user

Lavora con file system condivisi

È possibile confermare che il EFS filesystem e i file system FSx for Lustre sono disponibili con il comando. df -h L'output sul cluster dovrebbe essere simile al seguente:

[ec2-user@ip-10-3-6-103 ~]$ df -h
Filesystem                 Size  Used Avail Use% Mounted on
devtmpfs                   3.8G     0  3.8G   0% /dev
tmpfs                      3.9G     0  3.9G   0% /dev/shm
tmpfs                      3.9G  556K  3.9G   1% /run
tmpfs                      3.9G     0  3.9G   0% /sys/fs/cgroup
/dev/nvme0n1p1              24G   18G  6.6G  73% /
127.0.0.1:/                8.0E     0  8.0E   0% /home
10.3.132.79@tcp:/zlshxbev  1.2T  7.5M  1.2T   1% /shared
tmpfs                      780M     0  780M   0% /run/user/0
tmpfs                      780M     0  780M   0% /run/user/1000

Il /home filesystem monta 127.0.0.1 e ha una capacità molto grande. Questo è il EFS file system che avete creato in precedenza nel tutorial. Tutti i file scritti qui saranno disponibili /home in tutti i nodi del cluster.

Il /shared filesystem monta un IP privato e ha una capacità di 1,2 TB. Questo è il file system FSx for Lustre creato in precedenza nel tutorial. Tutti i file scritti qui saranno disponibili /shared in tutti i nodi del cluster.

Interagisci con Slurm

Elenca code e nodi

È possibile elencare le code e i nodi a cui sono associate. sinfo L'output del cluster dovrebbe essere simile al seguente:

[ec2-user@ip-10-3-6-103 ~]$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
demo         up   infinite      4  idle~ compute-1-[1-4]
[ec2-user@ip-10-3-6-103 ~]$

Notate la partizione denominata. demo Il suo stato è up e ha un massimo di 4 nodi. È associato ai nodi del gruppo di compute-1 nodi. Se modifichi il gruppo di nodi di calcolo e aumenti il numero massimo di istanze a 8, verrà letto il numero di nodi 8 e verrà letto l'elenco dei nodi. compute-1-[1-8] Se creassi un secondo gruppo di nodi di calcolo denominato test con 4 nodi e lo aggiungessi alla demo coda, tali nodi verranno visualizzati anche nell'elenco dei nodi.

Mostra offerte di lavoro

Puoi elencare tutti i lavori, in qualsiasi stato, sul sistema consqueue. L'output del cluster dovrebbe essere simile al seguente:

[ec2-user@ip-10-3-6-103 ~]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)

Prova a eseguire squeue di nuovo più tardi, quando hai un job Slurm in sospeso o in esecuzione.