Execute um trabalho de nó único no AWS PCS - AWS PCS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Execute um trabalho de nó único no AWS PCS

Para executar um trabalho usando o Slurm, você prepara um script de envio especificando os requisitos do trabalho e o envia para uma fila com o comando. sbatch Normalmente, isso é feito em um diretório compartilhado para que os nós de login e computação tenham um espaço comum para acessar arquivos.

Conecte-se ao nó de login do seu cluster e execute os comandos a seguir no prompt do shell.

  • Torne-se o usuário padrão. Mude para o diretório compartilhado.

    sudo su - ec2-user cd /shared
  • Use os comandos a seguir para criar um exemplo de script de trabalho:

    cat << EOF > job.sh #!/bin/bash #SBATCH -J single #SBATCH -o single.%j.out #SBATCH -e single.%j.err echo "This is job \${SLURM_JOB_NAME} [\${SLURM_JOB_ID}] running on \${SLURMD_NODENAME}, submitted from \${SLURM_SUBMIT_HOST}" && sleep 60 && echo "Job complete" EOF
  • Envie o script do trabalho para o agendador do Slurm:

    sbatch -p demo job.sh
  • Quando o trabalho for enviado, ele retornará uma ID do trabalho como um número. Use esse ID para verificar o status do trabalho. Substituir job-id no comando a seguir com o número retornado desbatch.

    squeue --job job-id
    squeue --job 1

    O squeue comando retorna uma saída semelhante à seguinte:

    JOBID PARTITION NAME USER     ST TIME NODES NODELIST(REASON)
    1     demo      test ec2-user CF 0:47 1     compute-1
  • Continue verificando o status da tarefa até que ela atinja o status R (em execução). O trabalho é feito quando squeue não devolve nada.

  • Inspecione o conteúdo do /shared diretório.

    ls -alth /shared

    A saída do comando é semelhante à seguinte:

    -rw-rw-r- 1 ec2-user ec2-user 107 Mar 19 18:33 single.1.out
    -rw-rw-r- 1 ec2-user ec2-user 0 Mar 19 18:32 single.1.err
    -rw-rw-r- 1 ec2-user ec2-user 381 Mar 19 18:29 job.sh

    Os arquivos single.1.err foram nomeados single.1.out e gravados por um dos nós de computação do seu cluster. Como o trabalho foi executado em um diretório compartilhado (/shared), eles também estão disponíveis em seu nó de login. É por isso que você configurou um sistema de arquivos FSx for Lustre para esse cluster.

  • Inspecione o conteúdo do single.1.out arquivo.

    cat /shared/single.1.out

    A saída é semelhante à seguinte:

    This is job test [1] running on compute-1, submitted from ip-10-3-13-181
    Job complete