本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
尝试运行作业
Job 在squeue
命令CF
状态下卡住了
这可能是动态节点启动时出现的问题。有关更多信息,请参阅在计算节点初始化中看到错误:
经营大规模工作然后看看nfsd: too many open connections, consider increasing
the number of threads in /var/log/messages
在联网文件系统中,当达到网络限制时,I/O 等待时间也会增加。这可能会导致软锁定,因为网络用于写入网络和 I/O 指标的数据。
对于第 5 代实例,我们使用 ENA 驱动程序来公开数据包计数器。这些计数器对网络达到实例带宽限制AWS时形成的数据包进行计数。您可以检查这些计数器以查看它们是否大于 0。如果是,则说明您已超出带宽限制。您可以通过运行来查看这些计数器ethtool -S eth0 | grep exceeded
。
超过网络限制通常是支持过多 NFS 连接的结果。这是当你达到或超过网络限制时首先要检查的事情之一。
例如,以下输出显示已删除的软件包:
$
ethtool -S eth0 | grep exceeded
bw_in_allowance_exceeded: 38750610 bw_out_allowance_exceeded: 1165693 pps_allowance_exceeded: 103 conntrack_allowance_exceeded: 0 linklocal_allowance_exceeded: 0
为避免收到此消息,请考虑将头节点实例类型更改为性能更高的实例类型。考虑将您的数据存储移至未导出为 NFS 共享的共享存储文件系统,例如 Amazon EFS 或 Amazon FSx。有关更多信息,请参阅共享存储上的AWS ParallelCluster Wiki 上的 “最佳实践
运行 MPI 作业
启用调试模式
要启用 OpenMPI 调试模式,请参阅 Op en MPI 有哪些控件可以帮助调试
要启用 IntelMPI 调试模式,请参阅其他环境变量
在任务输出OPAL ERROR
中看到MPI_ERRORS_ARE_FATAL
和
这些错误代码来自应用程序中的 MPI 层。要了解如何从应用程序获取 MPI 调试日志,请参阅启用调试模式。
此错误的一个可能原因是,您的应用程序已针对特定的 MPI 实现(例如 OpenMPI)进行编译,并且您正在尝试使用其他 MPI 实现(例如 IntelMPI)运行该应用程序。确保使用相同的 MPI 实现编译和运行应用程序。
在禁mpirun
用托管 DNS 的情况下使用
对于在 SlurmSettings/Dn s/DisableManagedDns和 UseEc2Hostnames 设置为的情况下创建的集群true
,DNS 无法解析Slurm节点名称。 Slurm可以在nodenames
未启用以及 MPI 作业在Slurm上下文中运行时引导 MPI 进程。我们建议按照 SlurmMPI 用户指南中的指南