Esegui un processo a nodo singolo in AWS PCS

Per eseguire un lavoro utilizzando Slurm, si prepara uno script di invio che specifica i requisiti del lavoro e lo si invia a una coda con il comando. sbatch In genere, questa operazione viene eseguita da una directory condivisa in modo che i nodi di accesso e di calcolo abbiano uno spazio comune per l'accesso ai file.

Connect al nodo di login del cluster ed esegui i seguenti comandi al prompt della shell.

Diventa l'utente predefinito. Passa alla directory condivisa.
```
sudo su - ec2-user
cd /shared
```

Utilizzate i seguenti comandi per creare uno script di lavoro di esempio:


cat << EOF > job.sh
#!/bin/bash
#SBATCH -J single
#SBATCH -o single.%j.out
#SBATCH -e single.%j.err

echo "This is job \${SLURM_JOB_NAME} [\${SLURM_JOB_ID}] running on \${SLURMD_NODENAME}, submitted from \${SLURM_SUBMIT_HOST}" && sleep 60 && echo "Job complete"
EOF

Invia lo script di lavoro allo scheduler Slurm:
```
sbatch -p demo job.sh
```
Quando il lavoro viene inviato, restituirà un ID del lavoro come numero. Usa quell'ID per controllare lo stato del lavoro. Sostituisci job-id nel comando seguente con il numero restituito dasbatch.
```
squeue --job job-id
```
```
squeue --job 1
```
Il squeue comando restituisce un output simile al seguente:
```
JOBID PARTITION NAME USER     ST TIME NODES NODELIST(REASON)
1     demo      test ec2-user CF 0:47 1     compute-1
```
Continuare a controllare lo stato del processo finché non raggiunge lo stato R (in esecuzione). Il lavoro è terminato quando squeue non restituisce nulla.
Ispeziona il contenuto della /shared directory.
```
ls -alth /shared
```
L'output del comando è simile al seguente:
```
-rw-rw-r- 1 ec2-user ec2-user 107 Mar 19 18:33 single.1.out
-rw-rw-r- 1 ec2-user ec2-user 0 Mar 19 18:32 single.1.err
-rw-rw-r- 1 ec2-user ec2-user 381 Mar 19 18:29 job.sh
```
I file single.1.err denominati single.1.out e scritti da uno dei nodi di calcolo del cluster. Poiché il processo è stato eseguito in una directory condivisa (/shared), sono disponibili anche nel nodo di accesso. Questo è il motivo per cui hai configurato un file system FSx for Lustre per questo cluster.

Ispeziona il contenuto del single.1.out file.


cat /shared/single.1.out

L'output è simile a quello riportato di seguito:

This is job test [1] running on compute-1, submitted from ip-10-3-13-181
Job complete

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Esplora l'ambiente del cluster

Esegui un processo MPI multinodo con Slurm