EC2 控制台输出日志 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

EC2 控制台输出日志

当 AWS ParallelCluster 检测到静态计算节点实例意外终止时,它会在一段时间后尝试从已终止的节点实例中检索 EC2 控制台输出。这样,如果计算节点无法与 Amazon CloudWatch 通信,仍然可以从控制台输出中检索有关节点终止原因的有用故障排除信息。此控制台输出记录在头节点的 /var/log/parallelcluster/compute_console_output 日志中。有关 EC2 控制台输出的更多信息,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的实例控制台输出

默认情况下,AWS ParallelCluster 仅从一部分终止节点样本中检索控制台输出。在有大量终止导致多个控制台输出请求的情况下,这可防止集群头节点不堪重负。默认情况下,AWS ParallelCluster 会在检测到终止和检索控制台输出之间等待 5 分钟,以便让 EC2 有时间从节点中检索最终的控制台输出。

您可以在头节点上的 /etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf 文件中编辑样本量和等待时间参数值。

AWS ParallelCluster 版本 3.5.0 中添加了此功能。

EC2 控制台输出参数

您可以在头节点上的 /etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf 文件中编辑以下 EC2 控制台输出参数的值。

compute_console_logging_enabled

要禁用控制台输出日志收集,请将 compute_console_logging_enabled 设置为 false。默认为 true

您可以随时更新此参数,而无需停止计算实例集。

compute_console_logging_max_sample_size

compute_console_logging_max_sample_size 设置 AWS ParallelCluster 每次检测到意外终止时从中收集控制台输出的最大计算节点数。如果此值小于 1,则 AWS ParallelCluster 从所有终止的节点检索控制台输出。默认值为 1

您可以随时更新此参数,而无需停止计算实例集。

compute_console_wait_time

compute_console_wait_time 设置 AWS ParallelCluster 从检测到节点故障到从该节点收集控制台输出之间等待的时间(以秒为单位)。如果您确定 EC2 需要更长时间从已终止的节点收集最终输出,则可以延长该等待时间。默认值为 300 秒(5 分钟)。

您可以随时更新此参数,而无需停止计算实例集。