本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
探索中的叢集環境 AWS PCS
登入叢集之後,您可以執行 shell 命令。例如,您可以變更使用者、在共用檔案系統上使用資料,以及與 Slurm 互動。
變更使用者
如果您已使用工作階段管理員登入叢集,您可能已連線為ssm-user
。這是針對工作階段管理員建立的特殊使用者。使用以下命令切換到 Amazon Linux 2 上的默認用戶。如果您使用連接,則不需要執行此操作SSH。
sudo su - ec2-user
使用共用檔案系統
您可以使用指令確認檔案EFS系統和 FSx Lustre 檔案系統是否可用。df -h
叢集上的輸出應如下所示:
[ec2-user@ip-10-3-6-103 ~]$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 3.8G 0 3.8G 0% /dev tmpfs 3.9G 0 3.9G 0% /dev/shm tmpfs 3.9G 556K 3.9G 1% /run tmpfs 3.9G 0 3.9G 0% /sys/fs/cgroup /dev/nvme0n1p1 24G 18G 6.6G 73% / 127.0.0.1:/ 8.0E 0 8.0E 0% /home 10.3.132.79@tcp:/zlshxbev 1.2T 7.5M 1.2T 1% /shared tmpfs 780M 0 780M 0% /run/user/0 tmpfs 780M 0 780M 0% /run/user/1000
/home
文件系統掛載 127.0.0.1 並具有非常大的容量。這是您先前在自學課程中建立的EFS檔案系統。此處寫入的任何檔案都可/home
在叢集中的所有節點下使用。
該/shared
文件系統掛載一個私有 IP,並具有 1.2 TB 的容量。這是您先前在自學課程中建立的 Lustre 檔案系統。FSx此處寫入的任何檔案都可/shared
在叢集中的所有節點下使用。
與思龍互動
列出佇列和節點
您可以列出佇列及其關聯使用的節點sinfo
。叢集的輸出應如下所示:
[ec2-user@ip-10-3-6-103 ~]$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST demo up infinite 4 idle~ compute-1-[1-4] [ec2-user@ip-10-3-6-103 ~]$
請注意名為的分割區demo
。它的狀態是up
,它最多有 4 個節點。它與節點組中的compute-1
節點相關聯。如果您編輯計算節點群組,並將執行個體數目上限增加到 8 個,則會讀取節點數目8
並讀取節點清單compute-1-[1-8]
。如果您建立第二個以 4 個節點命名test
的運算節點群組,並將其新增至demo
佇列,這些節點也會顯示在節點清單中。
顯示工作
您可以使用列出系統上任何狀態下的所有工作squeue
。叢集的輸出應如下所示:
[ec2-user@ip-10-3-6-103 ~]$ squeue JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
當您有 Slurm 工作擱置或執行中時,請稍後squeue
再試一次執行。