在计算节点初始化中看到错误 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在计算节点初始化中看到错误

Node bootstrap error在里面看见clustermgtd.log

该问题与计算节点无法引导有关。有关如何调试集群保护模式问题的排查的信息,请参阅如何调试保护模式

我配置了按需容量预留 (ODCR) 或区域预留实例

ODCR 包括具有多个网络接口的实例,例如 p4d、p4dE 和AWS Trainium (Trn)

在集群配置文件中,检查HeadNode是否在公有子网中以及计算节点是否在私有子网中。

ODCR 是有针对性的 ODCR

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.尽管我已经准备好了,但请按照/opt/slurm/etc/pcluster/run_instances_overrides.json中给出的说明进行操作使用 ODCR(按需容量预留)启动实例启动

如果您将 3.1.1 到 3.2.1AWS ParallelCluster 版本与目标 ODCR 一起使用,并且还使用运行实例替换 JSON 文件,则可能您的 JSON 文件格式不正确。您可能会在中看到错误clustermgtd.log,例如:

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.

通过运行以下命令验证 JSON 文件格式是否正确:

$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq

Found RunInstances parameters override.在集群创建失败clustermgtd.log时查看,或者在运行作业失败slurm_resume.log时查看

如果您使用的是运行实例替换 JSON 文件,请检查您是否在/opt/slurm/etc/pcluster/run_instances_overrides.json文件中正确设置了队列名称和计算资源名称。

An error occurred (InsufficientInstanceCapacity)在我无法运行任务slurm_resume.log时查看,或者clustermgtd.log当我无法创建集群时查看

使用 PG-ODCR(置放组 ODCR)

创建具有关联置放组的 ODCR 时,必须在配置文件中使用相同的置放组名称。在群集配置中设置相应的置放群组名称

使用可用区预留实例

如果您在集群配置true中使用带有PlacementGroup/Enabledto 的区域预留实例,则可能会看到错误,例如:

We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.

您可能会看到这种情况,因为区域预留实例不在同一 UC(或主干中)中,这可能会在使用置放群组时导致容量不足错误 (ICE)。您可以通过禁用集群配置中的PlacementGroup组设置来检查这种情况,以确定集群是否可以分配实例。

An error occurred (VcpuLimitExceeded)在我无法运行任务slurm_resume.log时查看,或者在clustermgtd.log我无法创建集群时查看

检查您正在使用的特定 EC2 实例类型对您的账户的 vCPU 限制。如果您看到的 vCPUs 比您请求的少 0 个或更少,请申请提高限制。有关如何查看当前限制和申请新限制的信息,请参阅适用于 Linux 实例的 Amazon EC2 用户指南中的适用于 Linux 实例的 Amazon EC2 服务Qus EC2 服务配额

An error occurred (InsufficientInstanceCapacity)在我无法运行任务slurm_resume.log时查看,或者在clustermgtd.log我无法创建集群时查看

您遇到了容量不足的问题。关注 https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/对问题进行故障排除。

查看节点的DOWN状态为Reason (Code:InsufficientInstanceCapacity)...

您遇到了容量不足的问题。关注 https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/对问题进行故障排除。有关快速容量不足故障切换模式AWS ParallelCluster的更多信息,请参阅Slurm集群快速容量不足故障转移

cannot change locale (en_US.utf-8) because it has an invalid name在里面看见slurm_resume.log

如果yum安装过程失败导致区域设置处于不一致状态,则可能会发生这种情况。例如,这可能是用户终止安装过程时造成的。

要验证原因,请执行以下操作:
  • 运行 su - pcluster-admin

    外壳显示错误,例如cannot change locale...no such file or directory

  • 运行 localedef --list

    返回一个空列表或不包含默认语言环境。

  • 使用yum history和检查最后一条yum命令yum history info #ID。最后一个身份证有Return-Code: Success吗?

    如果最后一个 ID 没有Return-Code: Success,则安装后脚本可能无法成功运行。

要修复此问题,请尝试使用重建语言环境yum reinstall glibc-all-langpacks。重建后,如果问题已修复,则su - pcluster-admin不显示错误或警告。

以前的场景都不适用于我的情况

要解决计算节点初始化问题,请参阅解决节点初始化问题

查看上的 “GitHub 已知问题” 中是否涵盖了您的场景 GitHub。AWS ParallelCluster

有关其他支持,请参阅其他支持