AWS ParallelCluster进程 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS ParallelCluster进程

本节仅适用于使用支持的传统作业调度程序之一(SGE、Slurm 或 Torque)部署的 HPC 集群。与这些调度程序一起使用时,通过与 Auto Scaling 组和底层任务调度程序交互来AWS ParallelCluster管理计算节点的配置和删除。

对于基于的 HPC 集群AWS Batch,AWS ParallelCluster依赖于AWS Batch为计算节点管理提供的功能。

注意

从 2.11.5 版本开始,AWS ParallelCluster不支持使用SGE或Torque调度程序。您可以继续在 2.11.4 及之前的版本中使用它们,但它们没有资格获得AWS服务和Support 团队的future 更新或故障排除AWS支持。

SGE and Torque integration processes

注意

本节仅适用于AWS ParallelCluster 2.11.4 及之前的版本。从 2.11.5 版本开始,AWS ParallelCluster不支持使用SGE和Torque调度程序、Amazon SNS 和 Amazon SQS。

概述

集群的生命周期在用户创建集群后开始。通常,从命令行界面 (CLI) 创建集群。创建集群之后,集群将一直存在,直到被删除为止。AWS ParallelCluster 守护进程在集群节点上运行,主要是为了管理 HPC 集群的弹性。下图显示了用户工作流程和集群生命周期。以下各节描述用于管理集群的 AWS ParallelCluster 守护进程。


     集群生命周期

使用SGE和Torque调度程序、AWS ParallelCluster用途nodewatcherjobwatcher、和sqswatcher进程。

jobwatcher

集群运行时,根用户拥有的进程会监视配置的调度程序(SGE或Torque)。它每分钟都会评估队列以决定何时扩大规模。


     jobwatcher 工作流

sqswatcher

sqswatcher过程监控 Auto Scaling 发送的 Amazon SQS 消息,以通知您集群内的状态变化。当实例联机时,它会向 Amazon SQS 提交 “实例就绪” 消息。此消息由sqs_watcher在头节点上运行时获取。这些消息用于通知队列管理员有新实例联机或遭到终止,以便能够在队列中添加或删除它们。


     sqswatcher 工作流

nodewatcher

nodewatcher 进程在计算队列中的每个节点上运行。在用户定义的 scaledown_idletime 期间之后,实例将终止。


     nodewatcher 工作流

Slurm integration processes

使用Slurm调度程序、AWS ParallelCluster用途clustermgtdcomputemgt进程。

clustermgtd

在异构模式(通过指定queue_settings值表示)下运行的集群具有在头节点上运行的集群管理守护程序 (clustermgtd) 进程。这些任务由集群管理守护程序执行。

  • 非活动分区清理

  • 静态容量管理:确保静态容量始终处于正常运行状态

  • 将调度程序与Amazon EC2 同步。

  • 清理孤立实例

  • 在暂停工作流程之外终止 Amazon EC2 时恢复调度程序节点状态

  • Amazon EC2 实例管理不正常(Amazon EC2 运行状况检查失败)

  • 定期维护事件管理

  • 调度器节点管理不正常(调度程序运行状况检查失败)

computemgtd

在异构模式(通过指定queue_settings值表示)下运行的集群具有在每个计算节点上运行的计算管理守护程序 (computemgtd) 进程。每隔五 (5) 分钟,计算管理守护程序就会确认头节点可以到达且运行状况良好。如果过了五 (5) 分钟,在此期间无法到达头节点或运行状况不佳,则计算节点将关闭。