尝试运行作业 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

尝试运行作业

Job 在squeue命令CF状态下卡住了

这可能是动态节点启动时出现的问题。有关更多信息,请参阅在计算节点初始化中看到错误

经营大规模工作然后看看nfsd: too many open connections, consider increasing the number of threads in /var/log/messages

在联网文件系统中,当达到网络限制时,I/O 等待时间也会增加。这可能会导致软锁定,因为网络用于写入网络和 I/O 指标的数据。

对于第 5 代实例,我们使用 ENA 驱动程序来公开数据包计数器。这些计数器对网络达到实例带宽限制AWS时形成的数据包进行计数。您可以检查这些计数器以查看它们是否大于 0。如果是,则说明您已超出带宽限制。您可以通过运行来查看这些计数器ethtool -S eth0 | grep exceeded

超过网络限制通常是支持过多 NFS 连接的结果。这是当你达到或超过网络限制时首先要检查的事情之一。

例如,以下输出显示已删除的软件包:

$ ethtool -S eth0 | grep exceeded bw_in_allowance_exceeded: 38750610 bw_out_allowance_exceeded: 1165693 pps_allowance_exceeded: 103 conntrack_allowance_exceeded: 0 linklocal_allowance_exceeded: 0

为避免收到此消息,请考虑将头节点实例类型更改为性能更高的实例类型。考虑将您的数据存储移至未导出为 NFS 共享的共享存储文件系统,例如 Amazon EFS 或 Amazon FSx。有关更多信息,请参阅共享存储上的AWS ParallelCluster Wiki 上的 “最佳实践” GitHub。

运行 MPI 作业

启用调试模式

要启用 OpenMPI 调试模式,请参阅 Op en MPI 有哪些控件可以帮助调试

要启用 IntelMPI 调试模式,请参阅其他环境变量

在任务输出OPAL ERROR中看到MPI_ERRORS_ARE_FATAL

这些错误代码来自应用程序中的 MPI 层。要了解如何从应用程序获取 MPI 调试日志,请参阅启用调试模式

此错误的一个可能原因是,您的应用程序已针对特定的 MPI 实现(例如 OpenMPI)进行编译,并且您正在尝试使用其他 MPI 实现(例如 IntelMPI)运行该应用程序。确保使用相同的 MPI 实现编译和运行应用程序。

在禁mpirun用托管 DNS 的情况下使用

对于在 SlurmSettings/Dn s/DisableManagedDnsUseEc2Hostnames 设置为的情况下创建的集群true,DNS 无法解析Slurm节点名称。 Slurm可以在nodenames未启用以及 MPI 作业在Slurm上下文中运行时引导 MPI 进程。我们建议按照 SlurmMPI 用户指南中的指南运行 MPI 作业Slurm。