Esegui un processo a nodo singolo in AWS PCS - AWS PCS

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esegui un processo a nodo singolo in AWS PCS

Per eseguire un lavoro utilizzando Slurm, si prepara uno script di invio che specifica i requisiti del lavoro e lo si invia a una coda con il comando. sbatch In genere, questa operazione viene eseguita da una directory condivisa in modo che i nodi di accesso e di calcolo abbiano uno spazio comune per l'accesso ai file.

Connect al nodo di login del cluster ed esegui i seguenti comandi al prompt della shell.

  • Diventa l'utente predefinito. Passa alla directory condivisa.

    sudo su - ec2-user cd /shared
  • Utilizzate i seguenti comandi per creare uno script di lavoro di esempio:

    cat << EOF > job.sh #!/bin/bash #SBATCH -J single #SBATCH -o single.%j.out #SBATCH -e single.%j.err echo "This is job \${SLURM_JOB_NAME} [\${SLURM_JOB_ID}] running on \${SLURMD_NODENAME}, submitted from \${SLURM_SUBMIT_HOST}" && sleep 60 && echo "Job complete" EOF
  • Invia lo script di lavoro allo scheduler Slurm:

    sbatch -p demo job.sh
  • Quando il lavoro viene inviato, restituirà un ID del lavoro come numero. Usa quell'ID per controllare lo stato del lavoro. Replace (Sostituisci) job-id nel comando seguente con il numero restituito dasbatch.

    squeue --job job-id
    squeue --job 1

    Il squeue comando restituisce un output simile al seguente:

    JOBID PARTITION NAME USER     ST TIME NODES NODELIST(REASON)
    1     demo      test ec2-user CF 0:47 1     compute-1
  • Continuare a controllare lo stato del processo finché non raggiunge lo stato R (in esecuzione). Il lavoro è terminato quando squeue non restituisce nulla.

  • Ispeziona il contenuto della /shared directory.

    ls -alth /shared

    L'output del comando è simile al seguente:

    -rw-rw-r- 1 ec2-user ec2-user 107 Mar 19 18:33 single.1.out
    -rw-rw-r- 1 ec2-user ec2-user 0 Mar 19 18:32 single.1.err
    -rw-rw-r- 1 ec2-user ec2-user 381 Mar 19 18:29 job.sh

    I file single.1.err denominati single.1.out e scritti da uno dei nodi di calcolo del cluster. Poiché il processo è stato eseguito in una directory condivisa (/shared), sono disponibili anche nel nodo di accesso. Questo è il motivo per cui hai configurato un file system FSx for Lustre per questo cluster.

  • Ispeziona il contenuto del single.1.out file.

    cat /shared/single.1.out

    L'output è simile a quello riportato di seguito:

    This is job test [1] running on compute-1, submitted from ip-10-3-13-181
    Job complete