本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在中探索集群环境 AWS PCS
登录到集群后,您可以运行 shell 命令。例如,您可以更改用户、处理共享文件系统上的数据以及与 Slurm 交互。
更改用户
如果您使用会话管理器登录到集群,则可能以身份进行连接ssm-user
。这是为会话管理器创建的特殊用户。使用以下命令在 Amazon Linux 2 上切换到默认用户。如果您使用连接,则无需执行此操作SSH。
sudo su - ec2-user
使用共享文件系统
您可以使用命令确认EFS文件系统和 FSx Lustre 文件系统是否可用。df -h
集群上的输出应类似于以下内容:
[ec2-user@ip-10-3-6-103 ~]$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 3.8G 0 3.8G 0% /dev tmpfs 3.9G 0 3.9G 0% /dev/shm tmpfs 3.9G 556K 3.9G 1% /run tmpfs 3.9G 0 3.9G 0% /sys/fs/cgroup /dev/nvme0n1p1 24G 18G 6.6G 73% / 127.0.0.1:/ 8.0E 0 8.0E 0% /home 10.3.132.79@tcp:/zlshxbev 1.2T 7.5M 1.2T 1% /shared tmpfs 780M 0 780M 0% /run/user/0 tmpfs 780M 0 780M 0% /run/user/1000
/home
文件系统装载了 127.0.0.1,容量非常大。这是您在本教程前面部分创建EFS的文件系统。此处写入的所有文件都将在集群中的所有节点/home
上都可用。
/shared
文件系统挂载一个私有 IP,容量为 1.2 TB。这是您在本教程前面FSx部分创建的 for Lustre 文件系统。此处写入的所有文件都将在集群中的所有节点/shared
上都可用。
与 Slurm 互动
列出队列和节点
您可以使用列出队列及其关联的节点sinfo
。集群的输出应类似于以下内容:
[ec2-user@ip-10-3-6-103 ~]$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST demo up infinite 4 idle~ compute-1-[1-4] [ec2-user@ip-10-3-6-103 ~]$
记下名为的分区demo
。它的状态为up
,最多有 4 个节点。它与节点组中的compute-1
节点相关联。如果您编辑计算节点组并将最大实例数增加到 8,则会读取节点数8
并读取节点列表compute-1-[1-8]
。如果您创建了第二个名为 4 个节点test
的计算节点组,并将其添加到demo
队列中,则这些节点也将显示在节点列表中。
显示职位
您可以使用列出系统上所有处于任何状态的作业squeue
。集群的输出应类似于以下内容:
[ec2-user@ip-10-3-6-103 ~]$ squeue JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
当你有 Slurm 任务待处理或正在运行时,请稍后squeue
再试运行。