Ejecute un trabajo de un solo nodo en AWS PCS

Para ejecutar un trabajo con Slurm, debe preparar un script de envío que especifique los requisitos del trabajo y enviarlo a una cola con el comando. sbatch Por lo general, esto se hace desde un directorio compartido, de modo que los nodos de inicio de sesión y de procesamiento tengan un espacio común para acceder a los archivos.

Conéctese al nodo de inicio de sesión de su clúster y ejecute los siguientes comandos en su intérprete de comandos.

Conviértete en el usuario predeterminado. Cambie al directorio compartido.
```
sudo su - ec2-user
cd /shared
```

Utilice los siguientes comandos para crear un ejemplo de script de trabajo:


cat << EOF > job.sh
#!/bin/bash
#SBATCH -J single
#SBATCH -o single.%j.out
#SBATCH -e single.%j.err

echo "This is job \${SLURM_JOB_NAME} [\${SLURM_JOB_ID}] running on \${SLURMD_NODENAME}, submitted from \${SLURM_SUBMIT_HOST}" && sleep 60 && echo "Job complete"
EOF

Envíe el script de trabajo al programador de Slurm:
```
sbatch -p demo job.sh
```
Cuando se envíe el trabajo, devolverá una ID de trabajo en forma de número. Usa ese identificador para comprobar el estado del trabajo. Sustituya job-id el siguiente comando por el número devuelto desdesbatch.
```
squeue --job job-id
```
```
squeue --job 1
```
El squeue comando devuelve un resultado similar al siguiente:
```
JOBID PARTITION NAME USER     ST TIME NODES NODELIST(REASON)
1     demo      test ec2-user CF 0:47 1     compute-1
```
Continúe comprobando el estado del trabajo hasta que alcance el estado R (en ejecución). El trabajo está hecho cuando squeue no devuelve nada.
Inspeccione el contenido del /shared directorio.
```
ls -alth /shared
```
El resultado del comando es similar al siguiente:
```
-rw-rw-r- 1 ec2-user ec2-user 107 Mar 19 18:33 single.1.out
-rw-rw-r- 1 ec2-user ec2-user 0 Mar 19 18:32 single.1.err
-rw-rw-r- 1 ec2-user ec2-user 381 Mar 19 18:29 job.sh
```
Uno de los nodos de cómputo del clúster single.1.err asignó un nombre single.1.out a los archivos y los escribió. Como el trabajo se ejecutó en un directorio compartido (/shared), también están disponibles en su nodo de inicio de sesión. Por eso configuró un sistema de archivos FSx para Lustre para este clúster.

Inspeccione el contenido del single.1.out archivo.


cat /shared/single.1.out

El resultado es similar al siguiente:

This is job test [1] running on compute-1, submitted from ip-10-3-13-181
Job complete

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Explore el entorno de clústeres

Ejecute un trabajo de MPI de varios nodos con Slurm