网络问题排查 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

网络问题排查

集群位于单个公有子网的问题

从其中一个计算节点中检查 cloud-init-output.log。如果发现类似以下指示节点卡在 Slurm 初始化状态的问题,则很可能是由于缺少 DynamoDB VPC 端点所致。添加 DynamoDB 端点。有关更多信息,请参阅 无互联网访问权限的单个子网中的 AWS ParallelCluster

ruby_block[retrieve compute node info] action run[2022-03-11T17:47:11+00:00] INFO: Processing ruby_block[retrieve compute node info] action run (aws-parallelcluster-slurm::init line 31)