Execute uma tarefa de nó único no AWS PCS

Para executar um trabalho usando o Slurm, você prepara um script de envio especificando os requisitos do trabalho e o envia para uma fila com o comando. sbatch Normalmente, isso é feito em um diretório compartilhado para que os nós de login e computação tenham um espaço comum para acessar arquivos.

Conecte-se ao nó de login do seu cluster e execute os comandos a seguir em seu prompt de shell.

Torne-se o usuário padrão. Mude para o diretório compartilhado.
```
sudo su - ec2-user
cd /shared
```

Use os comandos a seguir para criar um exemplo de script de trabalho:


cat << EOF > job.sh
#!/bin/bash
#SBATCH -J single
#SBATCH -o single.%j.out
#SBATCH -e single.%j.err

echo "This is job \${SLURM_JOB_NAME} [\${SLURM_JOB_ID}] running on \${SLURMD_NODENAME}, submitted from \${SLURM_SUBMIT_HOST}" && sleep 60 && echo "Job complete"
EOF

Envie o script do trabalho para o agendador do Slurm:
```
sbatch -p demo job.sh
```
Quando o trabalho for enviado, ele retornará uma ID do trabalho como um número. Use esse ID para verificar o status do trabalho. job-idSubstitua o comando a seguir pelo número retornado desbatch.
```
squeue --job job-id
```
```
squeue --job 1
```
O squeue comando retorna uma saída semelhante à seguinte:
```
JOBID PARTITION NAME USER     ST TIME NODES NODELIST(REASON)
1     demo      test ec2-user CF 0:47 1     compute-1
```
Continue verificando o status da tarefa até que ela atinja o status R (em execução). O trabalho é feito quando squeue não devolve nada.
Inspecione o conteúdo do /shared diretório.
```
ls -alth /shared
```
A saída do comando é semelhante à seguinte:
```
-rw-rw-r- 1 ec2-user ec2-user 107 Mar 19 18:33 single.1.out
-rw-rw-r- 1 ec2-user ec2-user 0 Mar 19 18:32 single.1.err
-rw-rw-r- 1 ec2-user ec2-user 381 Mar 19 18:29 job.sh
```
Os arquivos single.1.err foram nomeados single.1.out e gravados por um dos nós de computação do seu cluster. Como o trabalho foi executado em um diretório compartilhado (/shared), eles também estão disponíveis em seu nó de login. É por isso que você configurou um sistema de arquivos FSx for Lustre para esse cluster.

Inspecione o conteúdo do single.1.out arquivo.


cat /shared/single.1.out

A saída é semelhante à seguinte:

This is job test [1] running on compute-1, submitted from ip-10-3-13-181
Job complete

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Explore o ambiente de cluster

Execute uma tarefa MPI de vários nós com o Slurm