執行單一節點工作 AWS PCS - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

執行單一節點工作 AWS PCS

若要使用 Slurm 執行工作,您可以準備指定工作需求的提交指令碼,並使用指令將其提交至佇列。sbatch通常,這是從共享目錄完成的,因此登錄和計算節點有一個共同的空間來訪問文件。

Connect 至叢集的登入節點,並在其 shell 提示字元中執行下列命令。

  • 成為預設使用者。切換到共享目錄。

    sudo su - ec2-user cd /shared
  • 使用下列命令建立範例工作命令檔:

    cat << EOF > job.sh #!/bin/bash #SBATCH -J single #SBATCH -o single.%j.out #SBATCH -e single.%j.err echo "This is job \${SLURM_JOB_NAME} [\${SLURM_JOB_ID}] running on \${SLURMD_NODENAME}, submitted from \${SLURM_SUBMIT_HOST}" && sleep 60 && echo "Job complete" EOF
  • 將工作指令碼提交至 Slurm 排程器:

    sbatch -p demo job.sh
  • 提交作業後,它將返回一個作業 ID 作為一個數字。使用該 ID 來檢查工作狀態。Replace (取代) job-id 在下面的命令中,返回的數字sbatch

    squeue --job job-id
    squeue --job 1

    squeue令會傳回類似下列內容的輸出:

    JOBID PARTITION NAME USER     ST TIME NODES NODELIST(REASON)
    1     demo      test ec2-user CF 0:47 1     compute-1
  • 繼續檢查工作的狀態,直到工作到達 R (執行中) 狀態為止。這項工作在squeue沒有返回任何東西時完成。

  • 檢查/shared目錄的內容。

    ls -alth /shared

    命令輸出類似於以下內容:

    -rw-rw-r- 1 ec2-user ec2-user 107 Mar 19 18:33 single.1.out
    -rw-rw-r- 1 ec2-user ec2-user 0 Mar 19 18:32 single.1.err
    -rw-rw-r- 1 ec2-user ec2-user 381 Mar 19 18:29 job.sh

    命名為single.1.out和的檔案single.1.err由叢集的其中一個計算節點寫入。由於工作是在共用目錄 (/shared) 中執行,因此您也可以在登入節點上使用它們。這就是為什麼您為此叢集設定 Lustre 檔案系統的原因。FSx

  • 檢查single.1.out檔案的內容。

    cat /shared/single.1.out

    輸出類似以下內容:

    This is job test [1] running on compute-1, submitted from ip-10-3-13-181
    Job complete