尝试更新集群 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

尝试更新集群

pcluster update-cluster 命令无法在本地运行

检查本地文件系统中的 ~/.parallelcluster/pcluster-cli.log 以查看失败详细信息。

使用 pcluster describe-cluster 命令时看到 clusterStatusUPDATE_FAILED

如果集群堆栈更新回滚,请检查 /var/log/chef-client.logs 文件以查看错误详细信息。

查看在 “GitHub 已知问题” 中是否提到了您的问题 GitHub。 AWS ParallelCluster

集群更新超时

这可能是与 cfn-hup 未运行有关的问题。如果 cfn-hup 进程守护程序因外部原因终止,它不会自动重启。如果cfn-hup未运行,则在集群更新期间, CloudFormation 堆栈会按预期启动更新过程,但更新过程未在头节点上激活,堆栈部署最终会超时。有关更多信息,请参阅排查 cfn-hup 未运行时的集群更新超时问题以排除故障并从问题中恢复。