에서 클러스터 환경 살펴보기 AWS PCS - AWS PCS

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

에서 클러스터 환경 살펴보기 AWS PCS

클러스터에 로그인한 후 셸 명령을 실행할 수 있습니다. 예를 들어 사용자를 변경하고, 공유 파일 시스템의 데이터로 작업하고, Slurm과 상호 작용할 수 있습니다.

사용자 변경

세션 관리자를 사용하여 클러스터에 로그인한 경우 로 연결되었을 수 있습니다ssm-user. 이 사용자는 세션 관리자용으로 생성된 특수 사용자입니다. 다음 명령을 사용하여 Amazon Linux 2에서 기본 사용자로 전환합니다. 를 사용하여 연결한 경우에는 이 작업을 수행할 필요가 없습니다SSH.

sudo su - ec2-user

공유 파일 시스템으로 작업하세요

명령을 사용하여 EFS 파일 시스템 및 Lustre 파일 시스템을 FSx 사용할 수 있는지 확인할 수 있습니다. df -h 클러스터의 출력은 다음과 비슷해야 합니다.

[ec2-user@ip-10-3-6-103 ~]$ df -h
Filesystem                 Size  Used Avail Use% Mounted on
devtmpfs                   3.8G     0  3.8G   0% /dev
tmpfs                      3.9G     0  3.9G   0% /dev/shm
tmpfs                      3.9G  556K  3.9G   1% /run
tmpfs                      3.9G     0  3.9G   0% /sys/fs/cgroup
/dev/nvme0n1p1              24G   18G  6.6G  73% /
127.0.0.1:/                8.0E     0  8.0E   0% /home
10.3.132.79@tcp:/zlshxbev  1.2T  7.5M  1.2T   1% /shared
tmpfs                      780M     0  780M   0% /run/user/0
tmpfs                      780M     0  780M   0% /run/user/1000

/home파일 시스템은 127.0.0.1을 마운트하며 용량이 매우 큽니다. 이 파일 시스템은 자습서 EFS 앞부분에서 만든 파일 시스템입니다. 여기에 작성된 모든 파일은 클러스터의 모든 /home 노드에서 사용할 수 있습니다.

/shared파일 시스템은 사설 IP를 마운트하며 용량은 1.2TB입니다. 이 파일은 자습서 FSx 앞부분에서 만든 Lustre 파일 시스템용 파일 시스템입니다. 여기에 작성된 모든 파일은 클러스터의 모든 /shared 노드에서 사용할 수 있습니다.

Slurm과 상호작용하세요

대기열 및 노드 목록

대기열과 해당 대기열이 사용하는 노드를 나열할 수 있습니다. sinfo 클러스터의 출력은 다음과 비슷해야 합니다.

[ec2-user@ip-10-3-6-103 ~]$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
demo         up   infinite      4  idle~ compute-1-[1-4]
[ec2-user@ip-10-3-6-103 ~]$

이름이 지정된 demo 파티션을 기록해 두십시오. 상태는 up 이며 최대 4개의 노드가 있습니다. compute-1노드 그룹의 노드와 연결됩니다. 컴퓨팅 노드 그룹을 편집하고 최대 인스턴스 수를 8개로 늘리면 노드 수가 읽고 8 노드 목록이 읽힙니다compute-1-[1-8]. 노드 test 4개로 명명된 두 번째 컴퓨팅 노드 그룹을 생성하여 demo 대기열에 추가하면 해당 노드도 노드 목록에 표시됩니다.

작업 보기

를 사용하여 시스템의 모든 작업을 어떤 상태로든 나열할 수 squeue 있습니다. 클러스터의 출력은 다음과 비슷해야 합니다.

[ec2-user@ip-10-3-6-103 ~]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)

나중에 Slurm 작업이 보류 중이거나 실행 중일 때 squeue 다시 실행해 보십시오.