Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Ejecute un trabajo de un solo nodo en AWS PCS
Para ejecutar un trabajo con Slurm, debe preparar un script de envío que especifique los requisitos del trabajo y enviarlo a una cola con el comando. sbatch
Por lo general, esto se hace desde un directorio compartido, de modo que los nodos de inicio de sesión y de procesamiento tengan un espacio común para acceder a los archivos.
Conéctese al nodo de inicio de sesión de su clúster y ejecute los siguientes comandos en su intérprete de comandos.
-
Conviértete en el usuario predeterminado. Cambie al directorio compartido.
sudo su - ec2-user cd /shared
-
Utilice los siguientes comandos para crear un ejemplo de script de trabajo:
cat << EOF > job.sh #!/bin/bash #SBATCH -J single #SBATCH -o single.%j.out #SBATCH -e single.%j.err echo "This is job \${SLURM_JOB_NAME} [\${SLURM_JOB_ID}] running on \${SLURMD_NODENAME}, submitted from \${SLURM_SUBMIT_HOST}" && sleep 60 && echo "Job complete" EOF
-
Envíe el script de trabajo al programador de Slurm:
sbatch -p demo job.sh
-
Cuando se envíe el trabajo, devolverá una ID de trabajo en forma de número. Usa ese identificador para comprobar el estado del trabajo. Reemplazar
job-id
en el siguiente comando con el número devuelto desdesbatch
.squeue --job
job-id
squeue --job 1
El
squeue
comando devuelve un resultado similar al siguiente:JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 1 demo test ec2-user CF 0:47 1 compute-1
-
Continúe comprobando el estado del trabajo hasta que alcance el estado
R
(en ejecución). El trabajo está hecho cuandosqueue
no devuelve nada. -
Inspeccione el contenido del
/shared
directorio.ls -alth /shared
El resultado del comando es similar al siguiente:
-rw-rw-r- 1 ec2-user ec2-user 107 Mar 19 18:33 single.1.out -rw-rw-r- 1 ec2-user ec2-user 0 Mar 19 18:32 single.1.err -rw-rw-r- 1 ec2-user ec2-user 381 Mar 19 18:29 job.sh
Uno de los nodos de cómputo del clúster
single.1.err
asignó un nombresingle.1.out
a los archivos y los escribió. Como el trabajo se ejecutó en un directorio compartido (/shared
), también están disponibles en su nodo de inicio de sesión. Por eso configuró un sistema de archivos FSx para Lustre para este clúster. -
Inspeccione el contenido del
single.1.out
archivo.cat /shared/single.1.out
El resultado es similar al siguiente:
This is job test [1] running on compute-1, submitted from ip-10-3-13-181 Job complete