本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
通过 AWS Batch 集成对集群中的问题进行故障排除
本节与具有 AWS Batch 调度程序集成的集群相关。
头节点问题
您可以像排查 Slurm 集群问题一样排查头节点设置问题(Slurm 特定日志除外)。有关这些问题的更多信息,请参阅头节点。
计算问题
AWS Batch 管理服务的扩展和计算方面。如果您遇到与计算相关的问题,请参阅 AWS Batch 故障排除文档以获取帮助。
作业失败
如果作业失败,您可以运行 awsbout 命令来检索作业输出。您也可以运行awsbstat命令以获取指向 Amazon 存储的任务日志的链接 CloudWatch。
端点 URL 连接超时错误
如果多节点并行作业失败并显示错误:Connect timeout on endpoint URL
:
-
在
awsbout
输出日志中,从输出中检查作业是否为多节点并行作业:Detected 3/3 compute nodes. Waiting for all compute nodes to start.
-
验证计算节点子网是否为公有子网。
在中使用时,多节点 p AWS Batch arallel 作业不支持使用公有子网。 AWS ParallelCluster请为计算节点和作业使用私有子网。有关更多信息,请参阅 AWS Batch User Guide 中的 Compute environment considerations。要为您的计算节点配置私有子网,请参阅AWS ParallelCluster 使用调 AWS Batch 度器。