探索中的叢集環境 AWS PCS - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

探索中的叢集環境 AWS PCS

登入叢集之後,您可以執行 shell 命令。例如,您可以變更使用者、在共用檔案系統上使用資料,以及與 Slurm 互動。

變更使用者

如果您已使用工作階段管理員登入叢集,您可能已連線為ssm-user。這是針對工作階段管理員建立的特殊使用者。使用以下命令切換到 Amazon Linux 2 上的默認用戶。如果您使用連接,則不需要執行此操作SSH。

sudo su - ec2-user

使用共用檔案系統

您可以使用指令確認檔案EFS系統和 FSx Lustre 檔案系統是否可用。df -h叢集上的輸出應如下所示:

[ec2-user@ip-10-3-6-103 ~]$ df -h
Filesystem                 Size  Used Avail Use% Mounted on
devtmpfs                   3.8G     0  3.8G   0% /dev
tmpfs                      3.9G     0  3.9G   0% /dev/shm
tmpfs                      3.9G  556K  3.9G   1% /run
tmpfs                      3.9G     0  3.9G   0% /sys/fs/cgroup
/dev/nvme0n1p1              24G   18G  6.6G  73% /
127.0.0.1:/                8.0E     0  8.0E   0% /home
10.3.132.79@tcp:/zlshxbev  1.2T  7.5M  1.2T   1% /shared
tmpfs                      780M     0  780M   0% /run/user/0
tmpfs                      780M     0  780M   0% /run/user/1000

/home文件系統掛載 127.0.0.1 並具有非常大的容量。這是您先前在自學課程中建立的EFS檔案系統。此處寫入的任何檔案都可/home在叢集中的所有節點下使用。

/shared文件系統掛載一個私有 IP,並具有 1.2 TB 的容量。這是您先前在自學課程中建立的 Lustre 檔案系統。FSx此處寫入的任何檔案都可/shared在叢集中的所有節點下使用。

與思龍互動

列出佇列和節點

您可以列出佇列及其關聯使用的節點sinfo。叢集的輸出應如下所示:

[ec2-user@ip-10-3-6-103 ~]$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
demo         up   infinite      4  idle~ compute-1-[1-4]
[ec2-user@ip-10-3-6-103 ~]$

請注意名為的分割區demo。它的狀態是up,它最多有 4 個節點。它與節點組中的compute-1節點相關聯。如果您編輯計算節點群組,並將執行個體數目上限增加到 8 個,則會讀取節點數目8並讀取節點清單compute-1-[1-8]。如果您建立第二個以 4 個節點命名test的運算節點群組,並將其新增至demo佇列,這些節點也會顯示在節點清單中。

顯示工作

您可以使用列出系統上任何狀態下的所有工作squeue。叢集的輸出應如下所示:

[ec2-user@ip-10-3-6-103 ~]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)

當您有 Slurm 工作擱置或執行中時,請稍後squeue再試一次執行。