AWS PCS에서 클러스터 환경 탐색

클러스터에 로그인한 후 셸 명령을 실행할 수 있습니다. 예를 들어 사용자를 변경하고, 공유 파일 시스템의 데이터를 작업하고, Slurm과 상호 작용할 수 있습니다.

사용자 변경

세션 관리자를 사용하여 클러스터에 로그인한 경우 로 연결될 수 있습니다ssm-user. 세션 관리자용으로 생성된 특수 사용자입니다. 다음 명령을 사용하여 Amazon Linux 2의 기본 사용자로 전환합니다. SSH를 사용하여 연결한 경우이 작업을 수행할 필요가 없습니다.


sudo su - ec2-user

공유 파일 시스템 작업

명령에서 EFS 파일 시스템과 FSx for Lustre 파일 시스템을 사용할 수 있는지 확인할 수 있습니다df -h. 클러스터의 출력은 다음과 유사해야 합니다.

[ec2-user@ip-10-3-6-103 ~]$ df -h
Filesystem                 Size  Used Avail Use% Mounted on
devtmpfs                   3.8G     0  3.8G   0% /dev
tmpfs                      3.9G     0  3.9G   0% /dev/shm
tmpfs                      3.9G  556K  3.9G   1% /run
tmpfs                      3.9G     0  3.9G   0% /sys/fs/cgroup
/dev/nvme0n1p1              24G   18G  6.6G  73% /
127.0.0.1:/                8.0E     0  8.0E   0% /home
10.3.132.79@tcp:/zlshxbev  1.2T  7.5M  1.2T   1% /shared
tmpfs                      780M     0  780M   0% /run/user/0
tmpfs                      780M     0  780M   0% /run/user/1000

/home 파일 시스템은 127.0.0.1을 탑재하며 용량이 매우 큽니다. 자습서 앞부분에서 생성한 EFS 파일 시스템입니다. 여기에 작성된 모든 파일은 클러스터의 모든 노드에서 /home에서 사용할 수 있습니다.

/shared 파일 시스템은 프라이빗 IP를 탑재하며 용량은 1.2TB입니다. 자습서 앞부분에서 생성한 FSx for Lustre 파일 시스템입니다. 여기에 작성된 모든 파일은 클러스터의 모든 노드에서 /shared에서 사용할 수 있습니다.

Slurm과 상호 작용

주제

대기열 및 노드 나열

를 사용하여 대기열과 연결된 노드를 나열할 수 있습니다sinfo. 클러스터의 출력은 다음과 유사해야 합니다.

[ec2-user@ip-10-3-6-103 ~]$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
demo         up   infinite      4  idle~ compute-1-[1-4]
[ec2-user@ip-10-3-6-103 ~]$

라는 파티션을 기록해 둡니다demo. 상태는 up 이고 노드는 최대 4개입니다. 노드 compute-1 그룹의 노드와 연결됩니다. 컴퓨팅 노드 그룹을 편집하고 최대 인스턴스 수를 8개로 늘리면 노드 수가 읽히8고 노드 목록에가 표시됩니다compute-1-[1-8]. 4개의 노드test로 라는 두 번째 컴퓨팅 노드 그룹을 생성하고 demo 대기열에 추가한 경우 해당 노드도 노드 목록에 표시됩니다.

작업 표시

를 사용하여 시스템의 모든 작업을 모든 상태로 나열할 수 있습니다squeue. 클러스터의 출력은 다음과 유사해야 합니다.

[ec2-user@ip-10-3-6-103 ~]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)

Slurm 작업이 보류 중이거나 실행 중인 경우 나중에 squeue 다시 실행해 보십시오.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

클러스터에 연결

단일 노드 작업 실행