通过 AWS Batch 集成对集群中的问题进行故障排除 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过 AWS Batch 集成对集群中的问题进行故障排除

本节与具有 AWS Batch 调度程序集成的集群相关。

头节点问题

您可以像排查 Slurm 集群问题一样排查头节点设置问题(Slurm 特定日志除外)。有关这些问题的更多信息,请参阅头节点

计算问题

AWS Batch 管理服务的扩展和计算方面。如果您遇到与计算相关的问题,请参阅 AWS Batch 故障排除文档以获取帮助。

作业失败

如果作业失败,您可以运行 awsbout 命令来检索作业输出。您也可以运行awsbstat命令以获取指向 Amazon 存储的任务日志的链接 CloudWatch。

端点 URL 连接超时错误

如果多节点并行作业失败并显示错误:Connect timeout on endpoint URL

  • awsbout 输出日志中,从输出中检查作业是否为多节点并行作业:Detected 3/3 compute nodes. Waiting for all compute nodes to start.

  • 验证计算节点子网是否为公有子网。

在中使用时,多节点 p AWS Batch arallel 作业不支持使用公有子网。 AWS ParallelCluster请为计算节点和作业使用私有子网。有关更多信息,请参阅 AWS Batch User Guide 中的 Compute environment considerations。要为您的计算节点配置私有子网,请参阅AWS ParallelCluster 使用调 AWS Batch 度器