通过AWS Batch集成解决集群中的问题 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过AWS Batch集成解决集群中的问题

本节与集成了AWS Batch调度程序的集群相关。

头节点问题

您可以使用与Slurm集群相同的方式解决头节点设置问题(Slurm特定日志除外)。有关这些问题的更多信息,请参阅头部节点

计算问题

AWS Batch管理服务的扩展和计算方面。如果您遇到与计算相关的问题,请参阅AWS Batch故障排除文档以获取帮助。

Job 失败

如果作业失败,您可以运行awsbout命令来检索作业输出。您也可以运行awsbstat命令来获取指向 Amazon 存储的任务日志的链接CloudWatch。

端点 URL 错误时出现Connect 超时

如果多节点parallel 作业因错误而失败:Connect timeout on endpoint URL

  • awsbout输出日志中,从输出中检查作业是否为多节点parallel 任务:Detected 3/3 compute nodes. Waiting for all compute nodes to start.

  • 验证计算节点子网是否为公有子网。

在使用时,多节点p AWS Batch arallel 作业不支持使用公共子网。AWS ParallelCluster为您的计算节点和任务使用私有子网。有关更多信息,请参阅《AWS Batch用户指南》中的计算环境注意事项。要为您的计算节点配置私有子网,请参阅AWS ParallelCluster使用AWS Batch调度程序