本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
通过 AWS Batch 集成对集群中的问题进行故障排除
本节为集成了 AWS Batch 调度程序的集群提供了可能的故障排除技巧,特别是头节点问题、计算问题、作业失败和超时错误。
头节点问题
您可以采用与解决头节点设置问题相同的方式进行故障排除 Slurm 集群(除了 Slurm 特定日志)。有关这些问题的更多信息,请参阅头节点。
计算问题
AWS Batch 管理服务的扩展和计算方面。如果您遇到与计算相关的问题,请参阅 AWS Batch 故障排除文档以获取帮助。
作业失败
如果作业失败,您可以运行 awsbout 命令来检索作业输出。您也可以运行awsbstat命令以获取指向 Amazon 存储的任务日志的链接 CloudWatch。
端点 URL 连接超时错误
如果多节点并行作业失败并显示错误:Connect timeout on endpoint URL
:
-
在
awsbout
输出日志中,从输出中检查作业是否为多节点并行作业:Detected 3/3 compute nodes. Waiting for all compute nodes to start.
-
验证计算节点子网是否为公有子网。
在中使用时,多节点 p AWS Batch arallel 作业不支持使用公有子网。 AWS ParallelCluster请为计算节点和作业使用私有子网。有关更多信息,请参阅 AWS Batch User Guide 中的 Compute environment considerations。要为您的计算节点配置私有子网,请参阅AWS ParallelCluster 使用调 AWS Batch 度器。