에서 단일 노드 작업 실행 AWS PCS - AWS PCS

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

에서 단일 노드 작업 실행 AWS PCS

Slurm을 사용하여 작업을 실행하려면 작업 요구 사항을 지정하는 제출 스크립트를 준비하고 명령을 사용하여 큐에 제출합니다sbatch. 일반적으로 이 작업은 공유 디렉터리에서 수행되므로 로그인 노드와 컴퓨팅 노드에 파일에 액세스할 수 있는 공통 공간이 있습니다.

클러스터의 로그인 노드에 연결하고 셸 프롬프트에서 다음 명령을 실행합니다.

  • 기본 사용자가 되십시오. 공유 디렉터리로 변경합니다.

    sudo su - ec2-user cd /shared
  • 다음 명령을 사용하여 예제 작업 스크립트를 만들 수 있습니다.

    cat << EOF > job.sh #!/bin/bash #SBATCH -J single #SBATCH -o single.%j.out #SBATCH -e single.%j.err echo "This is job \${SLURM_JOB_NAME} [\${SLURM_JOB_ID}] running on \${SLURMD_NODENAME}, submitted from \${SLURM_SUBMIT_HOST}" && sleep 60 && echo "Job complete" EOF
  • Slurm 스케줄러에 작업 스크립트를 제출하십시오.

    sbatch -p demo job.sh
  • 작업이 제출되면 작업 ID가 숫자로 반환됩니다. 이 ID를 사용하여 작업 상태를 확인할 수 있습니다. Replace job-id 에서 반환된 번호를 사용하여 다음 명령에서 입력합니다sbatch.

    squeue --job job-id
    squeue --job 1

    squeue 명령은 다음과 비슷한 출력을 반환합니다.

    JOBID PARTITION NAME USER     ST TIME NODES NODELIST(REASON)
    1     demo      test ec2-user CF 0:47 1     compute-1
  • 작업이 R (실행 중) 상태에 도달할 때까지 작업 상태를 계속 확인합니다. 아무 것도 squeue 반환되지 않으면 작업이 완료됩니다.

  • /shared디렉토리의 내용을 검사하십시오.

    ls -alth /shared

    명령 출력은 다음과 비슷합니다.

    -rw-rw-r- 1 ec2-user ec2-user 107 Mar 19 18:33 single.1.out
    -rw-rw-r- 1 ec2-user ec2-user 0 Mar 19 18:32 single.1.err
    -rw-rw-r- 1 ec2-user ec2-user 381 Mar 19 18:29 job.sh

    이름이 지정된 single.1.out 파일은 클러스터의 컴퓨팅 노드 중 하나에서 single.1.err 작성되었습니다. 작업은 공유 디렉터리 (/shared) 에서 실행되었으므로 로그인 노드에서도 사용할 수 있습니다. 이것이 이 FSx 클러스터에 대해 Lustre용 파일 시스템을 구성한 이유입니다.

  • 파일 내용을 검사하십시오. single.1.out

    cat /shared/single.1.out

    출력은 다음과 유사합니다.

    This is job test [1] running on compute-1, submitted from ip-10-3-13-181
    Job complete