As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Execute um trabalho de nó único no AWS PCS
Para executar um trabalho usando o Slurm, você prepara um script de envio especificando os requisitos do trabalho e o envia para uma fila com o comando. sbatch
Normalmente, isso é feito em um diretório compartilhado para que os nós de login e computação tenham um espaço comum para acessar arquivos.
Conecte-se ao nó de login do seu cluster e execute os comandos a seguir no prompt do shell.
-
Torne-se o usuário padrão. Mude para o diretório compartilhado.
sudo su - ec2-user cd /shared
-
Use os comandos a seguir para criar um exemplo de script de trabalho:
cat << EOF > job.sh #!/bin/bash #SBATCH -J single #SBATCH -o single.%j.out #SBATCH -e single.%j.err echo "This is job \${SLURM_JOB_NAME} [\${SLURM_JOB_ID}] running on \${SLURMD_NODENAME}, submitted from \${SLURM_SUBMIT_HOST}" && sleep 60 && echo "Job complete" EOF
-
Envie o script do trabalho para o agendador do Slurm:
sbatch -p demo job.sh
-
Quando o trabalho for enviado, ele retornará uma ID do trabalho como um número. Use esse ID para verificar o status do trabalho. Substituir
job-id
no comando a seguir com o número retornado desbatch
.squeue --job
job-id
squeue --job 1
O
squeue
comando retorna uma saída semelhante à seguinte:JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 1 demo test ec2-user CF 0:47 1 compute-1
-
Continue verificando o status da tarefa até que ela atinja o status
R
(em execução). O trabalho é feito quandosqueue
não devolve nada. -
Inspecione o conteúdo do
/shared
diretório.ls -alth /shared
A saída do comando é semelhante à seguinte:
-rw-rw-r- 1 ec2-user ec2-user 107 Mar 19 18:33 single.1.out -rw-rw-r- 1 ec2-user ec2-user 0 Mar 19 18:32 single.1.err -rw-rw-r- 1 ec2-user ec2-user 381 Mar 19 18:29 job.sh
Os arquivos
single.1.err
foram nomeadossingle.1.out
e gravados por um dos nós de computação do seu cluster. Como o trabalho foi executado em um diretório compartilhado (/shared
), eles também estão disponíveis em seu nó de login. É por isso que você configurou um sistema de arquivos FSx for Lustre para esse cluster. -
Inspecione o conteúdo do
single.1.out
arquivo.cat /shared/single.1.out
A saída é semelhante à seguinte:
This is job test [1] running on compute-1, submitted from ip-10-3-13-181 Job complete