Ejecute un trabajo de un solo nodo en AWS PCS - AWS PCS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ejecute un trabajo de un solo nodo en AWS PCS

Para ejecutar un trabajo con Slurm, debe preparar un script de envío que especifique los requisitos del trabajo y enviarlo a una cola con el comando. sbatch Por lo general, esto se hace desde un directorio compartido, de modo que los nodos de inicio de sesión y de procesamiento tengan un espacio común para acceder a los archivos.

Conéctese al nodo de inicio de sesión de su clúster y ejecute los siguientes comandos en su intérprete de comandos.

  • Conviértete en el usuario predeterminado. Cambie al directorio compartido.

    sudo su - ec2-user cd /shared
  • Utilice los siguientes comandos para crear un ejemplo de script de trabajo:

    cat << EOF > job.sh #!/bin/bash #SBATCH -J single #SBATCH -o single.%j.out #SBATCH -e single.%j.err echo "This is job \${SLURM_JOB_NAME} [\${SLURM_JOB_ID}] running on \${SLURMD_NODENAME}, submitted from \${SLURM_SUBMIT_HOST}" && sleep 60 && echo "Job complete" EOF
  • Envíe el script de trabajo al programador de Slurm:

    sbatch -p demo job.sh
  • Cuando se envíe el trabajo, devolverá una ID de trabajo en forma de número. Usa ese identificador para comprobar el estado del trabajo. Reemplazar job-id en el siguiente comando con el número devuelto desdesbatch.

    squeue --job job-id
    squeue --job 1

    El squeue comando devuelve un resultado similar al siguiente:

    JOBID PARTITION NAME USER     ST TIME NODES NODELIST(REASON)
    1     demo      test ec2-user CF 0:47 1     compute-1
  • Continúe comprobando el estado del trabajo hasta que alcance el estado R (en ejecución). El trabajo está hecho cuando squeue no devuelve nada.

  • Inspeccione el contenido del /shared directorio.

    ls -alth /shared

    El resultado del comando es similar al siguiente:

    -rw-rw-r- 1 ec2-user ec2-user 107 Mar 19 18:33 single.1.out
    -rw-rw-r- 1 ec2-user ec2-user 0 Mar 19 18:32 single.1.err
    -rw-rw-r- 1 ec2-user ec2-user 381 Mar 19 18:29 job.sh

    Uno de los nodos de cómputo del clúster single.1.err asignó un nombre single.1.out a los archivos y los escribió. Como el trabajo se ejecutó en un directorio compartido (/shared), también están disponibles en su nodo de inicio de sesión. Por eso configuró un sistema de archivos FSx para Lustre para este clúster.

  • Inspeccione el contenido del single.1.out archivo.

    cat /shared/single.1.out

    El resultado es similar al siguiente:

    This is job test [1] running on compute-1, submitted from ip-10-3-13-181
    Job complete