发布说明和文档历史记录 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

发布说明和文档历史记录

下表描述了 AWS ParallelCluster 用户指南 的主要更新和新功能。我们还经常更新文档来处理您发送给我们的反馈意见。

变更说明日期

AWS ParallelCluster用户界面版本 2023.05.0 已发布

AWS ParallelCluster用户界面版本 2023.05.0 已发布。

功能增强功能

  • 从AWS ParallelCluster版本 3.6.0 开始,添加对 RHEL 8 的支持。

  • 添加集群成本监控。

  • 从AWS ParallelCluster版本 3.6.0 开始,增加队列和计算资源配额。

功能更改

  • 改进了集群创建向导的用户界面。

  • 提高了AWS ParallelCluster UI 部署的速度。

  • 改进了添加新用户的界面。

  • 默认情况下,队列位于头节点子网中。

错误修复:

  • 集群创建完成后,切换到正确的区域。

  • 修复 “编辑集群” 功能中的加载指示器显示问题。

  • 在删除 EBSSnapshotId 属性时修复集群的创建问题。

有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG文件GitHub。

2023 年 5 月 16 日

AWS ParallelCluster用户界面版本 2023.04.0 已发布

AWS ParallelCluster用户界面版本 2023.04.0 已发布。

功能增强功能

  • 重新设计集群创建向导。

  • 重新设计集群日志页面。

  • 为共享存储添加自定义名称设置。

  • 向集群添加存储时添加多个存储选择。

  • 增加对亚马逊 EFS 和 FSx for Lustre 的DeletionPolicy支持。

  • 在集群配置中添加ImdsSupport设置。

  • 添加对 C7 实例类型的支持。

  • 添加了教程恢复到以前的AWS Systems Manager 文档版本

功能更改

  • 集群配置 YAML 的大小不超过 1MB。

  • 由于使用 Boto3 IAM 临时证书进行授权,用户未被注销。

  • 选择 HPC 实例时禁用多线程选项。

  • 删除了集群创建页面上的禁用回滚功能。

  • 在提供所需信息之前,禁止用户使用AWS ParallelCluster UI。

  • 最多可添加 10 个队列。

  • 在AWS ParallelCluster UI 安装过程中,SSM-SessionManagerRunShell文档不会被覆盖。

错误修复:

  • 修复损坏的重置密码链接。

  • 修复因EcrPrivateRepository不为空而delete stack导致的损坏

  • 修复了多用户管理属性部分中 “生成 SSH 密钥” 复选框的初始化问题。

  • 修复了具有未定义属性的任务导致的崩溃问题。

  • 修复了 SCRATCH FSx 设置。

  • 修复了启动和停止实例按钮,单击一次后仍处于启用状态。

有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG文件GitHub。

2023 年 4 月 17 日

AWS ParallelCluster版本 3.5.1 已发布

AWS ParallelCluster版本 3.5.1 已发布。

功能增强功能

功能更改

  • 将 EFA 安装程序升级到1.22.0

    • EFA 驱动程序:efa-2.1.1g(来自efa-2.1.1-1

    • EFA-Config:efa-config-1.13-1(来自 efa-config-1.12-1)

    • EFA 个人资料:efa-profile-1.5-1(没有变化)

    • libfabric-AWS:libfabric-aws-1.17.0-1(来自libfabric-aws-1.16.1amzn3.0-1

    • rdma core:rdma-core-43.0-1(没有变化)

    • 打开 MPI:openmpi40-aws-4.1.5-1(从openmpi40-aws-4.1.4-3

    将 NICE DCV 升级到版本2022.2-14521

    • 服务器:2022.2.14521-1

    • xdcv:2022.2.519-1

    • gl:2022.2.1012-1

    • web_viewer:2022.2.14521-1

错误修复:

  • 修复在集群更新过程中删除共享 Amazon EBS 卷/etc/exportsMountDir和之间模式匹配导致的潜在节点启动失败。

  • 修复以防止每次clustermgtd迭代时compute_console_output日志文件被截断。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包GitHub。aws-parallelcluster-cookbook

2023 年 3 月 29 日

AWS ParallelCluster版本 3.5.0 已发布

AWS ParallelCluster版本 3.5.0 已发布。

功能增强功能

  • 使用 AWS ParallelClusterUI 访问和管理集群。

  • 在CloudFormation模板中添加版本化AWS ParallelCluster策略,供您在工作负载中引用。

  • 添加一个AWS ParallelCluster可用于您自己的代码的 Python 库。

  • 在计算节点引导失败时向 AmazCloudWatch on 添加计算节点控制台输出的日志记录。

  • 在集群创建失败时将包含失败代码和原因的失败字段添加到describe-cluster输出中。

  • 添加验证器以防止在调用子流程模块时进行恶意字符串注入。

  • 如果在配置静态节点时集群状态更改为,PROTECTED则集群创建失败。

功能更改

  • 升级到Slurm版本22.05.8(从版本22.05.7

  • 将 EFA 安装程序升级到1.21.0

    • EFA 驱动程序:efa-2.1.1-1(来自efa-2.1

    • EFA-Config:efa-config-1.12-1(来自 efa-config-1.11-1)

    • EFA 个人资料:efa-profile-1.5-1(没有变化)

    • libfabric-AWS:libfabric-aws-1.16.1amzn3.0-1(来自libfabric-aws-1.16.1

    • rdma 核心:rdma-core-43.0-1(来自rdma-core-43.0-2

    • 打开 MPI:openmpi40-aws-4.1.4-3(无变化)

  • 使Slurm控制器日志更详细,并为省Slurm电插件启用其他日志记录。

错误修复:

  • 启用Slurm记账时,通过验证集群名称不超过 40 个字符来修复集群数据库的创建问题。

  • 修复在clustermgtd EC2 实例状态检查失败时导致重新启动的计算节点被替换的问题。Slurm

  • 修复了由于头节点上的 IAM 策略不正确而导致其他账户共享容量预留的计算节点无法启动的问题。

有关更改的详细信息,请参阅上的 aws-parallelcluster aws-parallelcluster-cookbookaws-parallelcluster-node、和aws-parallelcluster-ui软件包的CHANGELOG文件GitHub。

2023 年 2 月 20 日

AWS ParallelCluster版本 3.4.1 已发布

AWS ParallelCluster版本 3.4.1 已发布。

错误修复:

  • 修复Slurm调度程序问题,该问题可能导致错误地应用对其内部计算节点注册表的更新。因此,如果出现此问题,EC2 实例可能会变得不可用或可能由错误的实例类型提供支持。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包GitHub。aws-parallelcluster-cookbook

2023 年 1 月 13 日

AWS ParallelCluster版本 3.4.0 已发布

AWS ParallelCluster版本 3.4.0 已发布。

功能增强功能

  • 增加对跨多个可用区启动节点的支持,以提高容量可用性。

  • 添加对为每个队列指定多个子网的支持,以提高容量可用性。

  • Iam/中添加新的配置参数 ResourcePrefix,为创建的 IAM 资源的路径和名称指定前缀AWS ParallelCluster。

  • 添加新的配置部分 DeploymentSettings/,LambdaFunctionsVpcConfig用于指定AWS ParallelCluster Lambda 函数使用的 VPC 配置。

  • 添加在集群更新期间指定要在头节点中运行的自定义脚本的功能。用Slurm作调度器OnNodeUpdated时,可以使用 HeadNodeCustomActions//指定脚本。

功能更改

  • 取消为现有文件系统创建 Amazon EFS 装载目标。

  • 使用挂载 EFS 文件系统amazon-efs-utils。可以使用传输中加密和 IAM 授权用户装载 EFS 文件系统。

  • 在 CentOS7 和 Ubuntu 上安装 stunnel 5.67 以支持 EFS 传输中加密。

  • 将 EFA 安装程序升级到1.20.0(从1.18.0)。

    • EFA 驱动程序:efa-2.1(来自efa-1.16.0-1

    • EFA-config:efa-config-1.11-1(没有变化)

    • EFA 个人资料:efa-profile-1.5-1(没有变化)

    • libfabric-AWS:libfabric-aws-1.16.1(来自libfabric-aws-1.16.0~amzn4.0-1

    • rdma 核心:rdma-core-43.0-2来自 (rdma-core-41.0-2)

    • 打开 MPI:openmpi40-aws-4.1.4-3从 (openmpi40-aws-4.1.4-2)

  • 升级Slurm到版本22.05.7(从22.05.5)。

  • 将 Python 升级到3.9.163.7.16。 (来自3.9.153.7.13)。

  • 使用时Slurm22.05.7,处于IDLE+CLOUD+COMPLETING+POWER_DOWN+NOT_RESPONDING状态的动态节点不被视为运行状况不佳。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包GitHub。aws-parallelcluster-cookbook

2022 年 12 月 22 日

AWS ParallelCluster版本 3.3.1 发布

AWS ParallelCluster版本 3.3.3.3.3.3.1

功能更改

  • 在 Amazon EC2 停用两年后,官方AWS ParallelCluster产品 AMI 现已上市。

  • 将AWS ParallelCluster API Lambda 的内存大小增加到 2048,以减少冷启动惩罚并避免超时。

错误修复:

  • 防止替换 Lustre 文件系统的托管 FSx 以及包括计算队列子网 ID 更改在内的集群更新数据丢失。

  • SharedStorageDeletionPolicy适用于集群更新操作。

有关更改的详细信息,请参阅上的 aws-parallelcluster 软件包CHANGELOG文件GitHub。

2022 年 12 月 2 日

AWS ParallelCluster版本 2.11.9 已发布

AWS ParallelCluster版本 2.11.9 已发布。

错误修复:

  • 防止替换 Lustre 文件系统的托管 FSx,防止丢失集群更新(包括对的更改)的数据vpc_security_group_id

有关更改的详细信息,请参阅上的 aws-parallelcluster 软件包CHANGELOG文件GitHub。

2022 年 12 月 2 日

AWS ParallelCluster仅限文档 hpc6id 注意

AWS ParallelCluster仅限文档的更新

2022 年 12 月 2 日

AWS ParallelCluster版本 3.1.5 已发布

AWS ParallelCluster版本 3.1.5 已发布。

功能增强功能

  • 修复阻止空闲节点终止的 Slurm 问题。

  • 将 EFA 安装程序升级为1.18.0

    • EFA 驱动程序:efa-1.16.0-1

    • EFA-config:efa-config-1.11-1(来自efa-config-1.9-1

    • EFA 个人资料:efa-profile-1.5-1(没有变化)

    • libfabric-AWS:libfabric-aws-1.16.0~amzn4.0-1(来自libfabric-1.13.2)。

    • rdma 核心:rdma-core-41.0-2(来自rdma-core-37.0

    • 打开 MPI:openmpi40-aws-4.1.4-2(从openmpi40-aws-4.1.1-2

功能更改

  • 在 API 堆栈ParallelClusterUserRole用于集群更新的AWS ParallelCluster API 堆栈中添加lambda:ListTagslambda:UntagResource

  • 将英特尔 MPI 库升级到 2021 版更新 6(从 2021 版更新 4 开始)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 6

  • 将 NVIDIA 驱动程序升级到 470.141.03 版本(从 470.103.01 开始)。

  • 将 NVIDIA Fabric Manager 升级到 470.141.03 版本(从 470.103.01 开始)。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包GitHub。aws-parallelcluster-cookbook

2022 年 11 月 16 日

AWS ParallelCluster版本 2.11.8 已发布

AWS ParallelCluster版本 2.11.8 已发布。

功能更改

  • 将英特尔 MPI 库升级到 2021 版更新 6(从 2021 版更新 4 更新)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 6

  • 将 EFA 安装程序升级为1.19.0

    • EFA 驱动程序:efa-1.16.0-1

    • EFA-config:efa-config-1.11-1(来自efa-config-1.9-1

    • EFA 个人资料:efa-profile-1.5-1(没有变化)

    • libfabric-AWS:libfabric-aws-1.16.0-1(来自libfabric-1.13.2

    • rdma 核心:rdma-core-41.0-2(来自rdma-core-37.0

    • 打开 MPI:openmpi40-aws-4.1.4-3(从openmpi40-aws-4.1.1-2

  • 将 Lambda 函数在AWS Batch集成中使用的 Python 运行时升级到 python3.9。

错误修复:

  • 防止在更新期间更改集群标签,因为它不受支持。

有关更改的详细信息,请参阅上的 aws-parallelcluster 软件包CHANGELOG文件GitHub。

2022 年 11 月 14 日

AWS ParallelCluster版本 3.3.0 已发布

AWS ParallelCluster版本 3.3.3.0

功能增强功能

  • 在用作调度器时,添加对计算资源的多实例分配配置的支持。Slurm有关更多信息,请参阅使用 Slurm 分配多实例类型

  • 使用更新的配置,SharedStorage通过集群更新添加和删除功能。有关更多信息,请参阅共享存储

  • DeletionPolicyEfsFsxLustre共享存储设置添加新的配置参数以支持存储保留。

  • 使用新的配置参数 Scheduling/SlurmSettings/添加对Slurm会计的支持Database。有关更多信息,请参阅Slurm会计AWS ParallelCluster

  • 添加对按需容量预留和容量预留资源组的支持。有关更多信息,请参阅使用 ODCR(按需容量预留)启动实例启动

  • 添加新的配置参数以指定集群中要支持的 IMDS 版本或在集群中构建映像基础架构ImdsSupportImds/和 build、Imds/ImdsSupport、配置。

  • PlacementGroupNetworking/ComputeResources部分添加对 SlurmQueues/的支持。

  • 添加对具有多个网络接口的实例的支持,这些接口仅限于每台设备一个 ENI。

  • 通过检查附加安全组中的 CIDR 块,改善外部 Amazon EFS 文件系统的网络验证。

  • 添加验证器以检查配置的实例类型是否支持置放组。

  • 将 NFS 线程配置为最小值(256,最大值(8,num_cores * 4)),以确保更好的稳定性和性能。

  • 在编译时移动 NFS 安装以缩短配置时间。

  • 为部署AWS ParallelCluster API 时创建的EcrImageBuilder SNS 主题启用服务器端加密,该主题用于通知 docker 镜像构建事件。

功能更改

  • 更改 SlurmQueues//NetworkingPlacementGroup/的行为Enabled。现在,它为每个计算资源创建一个唯一的托管置放群组,而不是为所有计算资源创建一个单一的托管置放群组。

  • 添加对 SlurmQueues//NetworkingPlacementGroup/Name作为首选命名方法的支持。

  • 将头节点标签从 Launch Template 移至实例定义,以避免在标签更新时替换头节点。

  • 通过由启动模板中的设置执行的脚本禁用多线程cloud-init,而不是通过CpuOptions设置来禁用多线程。

  • 在 API 基础架构、API Docker 容器和集群 Lambda 资源中,将 Python 升级到版本 3.9,将 NodeJS 升级到版本 16。

  • 中移除对 Python 3.6 的支持aws-parallelcluster-batch-cli

  • 升级Slurm到版本22.05.5(从21.08.8-2)。

  • 将 NVIDIA 驱动程序升级到版本470.141.03(从470.129.06)。

  • 将 NVIDIA 架构管理器升级到版本470.141.03(从470.129.06)。

  • 将 NVIDIA CUDA 工具包升级到版本 11.7.1 (from 11.4.4)。

  • 将AWS ParallelCluster虚拟环境中使用的 Python 从升级3.7.133.9.15

  • 将 EFA 安装程序升级到版本 1.18.0。

    • EFA 驱动程序:efa-1.16.0-1(没变)

    • EFA 配置:efa-config-1.11-1(from efa-config-1.10-1)

    • EFA 个人资料:efa-profile-1.5-1(没有变化)

    • libfabric-AWS:libfabric-aws-1.16.0~amzn4.0-1(来自libfabric-aws-1.16.0~amzn2.0-1)。

    • rdma 核心:rdma-core-41.0-2(来自rdma-core-37.0

    • 打开 MPI:openmpi40-aws-4.1.4-2(从openmpi40-aws-4.1.1-2

  • 将 NICE DCV 升级到版本2022.1-13300(从2022.0-12760)。

  • 启用对 forSingleSubnetValidator 的抑制Queues

  • 请勿在DRAIN节点处于COMPLETING状态时替换节点,因为 Epilog 可能仍在运行。

错误修复:

  • 修复了在传递不正确的过滤器时AWS ParallelClusterListClusterLogStreams命令中过滤器参数的验证失败的问题。

  • 修复了将参数 SharedStorage/与EfsSettings其他 SharedStorage/EfsSettings参数一起指定时FileSystemId验证失败的问题。以前,FileSystemId不包括在内。

  • 修复在更改顺序以及SharedStorage配置中其他更改时出现的集群更新。

  • 修复UpdateParallelClusterLambdaRole了AWS ParallelCluster用于上传日志的 APICloudWatch。

  • 修复 Cinc 在执行任何食谱之前安装软件包时不使用本地 CA 证书包的问题。

  • 修复了设置时升级 ubuntupcluster build-imageBuild:UpdateOsPackages:Enabled:true 时出现的问题。

  • 通过重复密钥失败来修复 YAML 集群配置的解析。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包GitHub。aws-parallelcluster-cookbook

2022 年 11 月 2 日

AWS ParallelCluster仅添加了文档 API 参考。

AWS ParallelCluster仅限文档的更新

2022 年 10 月 27 日

AWS ParallelCluster版本 3.2.1 发布

AWS ParallelCluster版本 3.2.1 已发布。

功能增强功能

  • 改进逻辑,将主机路由表关联到不同的网卡,以更好地支持具有多个 NIC 的 EC2 实例。

功能更改

  • 将 NVIDIA 驱动程序升级到 470.141.03 版本。

  • 将 NVIDIA Fabric Manager 升级到 470.141.03 版本。

  • 禁用cron作业任务man-dbmlocate,这可能会对节点性能产生负面影响。

  • 将英特尔 MPI 库升级到 2021.6.0.602。

  • 将 Python 从 3.7.10 升级到 3.7.13 以应对这种安全风险。

错误修复:

  • 避免在群集配置不可用DescribeCluster时失败。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包GitHub。aws-parallelcluster-cookbook

2022 年 10 月 3 日

AWS ParallelCluster版本 3.2.0 发布

AWS ParallelCluster版本 3.2.0

功能增强功能

功能更改

  • 将 EFA 安装程序升级到版本 1.17.2。

    • EFA 驱动程序:efa-1.16.0-1

    • EFA 配置:efa-config-1.10-1

    • EFA 简介:efa-profile-1.5-1

    • libfabric:libfabric-aws-1.16.0~amzn2.0-1

    • RDMA 内核:rdma-core-41.0-2

    • 打开 MPI:openmpi40-aws-4.1.4-2

  • 将 NICE DCV 升级到 2022.0-12760 版本。

  • 将 NVIDIA 驱动程序升级到 470.129.06 版本。

  • 将 NVIDIA Fabric Manager 升级到 470.129.06 版本。

  • 将根卷和其他卷中的默认 EBS 卷类型从 gp2 更改为 gp3。

  • 对适用于 Lustre 文件系统的 FSx 的更改是由AWS ParallelCluster以下人员创建的:

    • 将默认部署类型更改为Scratch_2

    • 将 Lustre 服务器版本更改为2.12

  • 传递现有 PlacementGroup/Enabledtrue时不需要将PlacementGroup /设置为Id

  • IdPlacementGroup/Enabled被明确设置为时,不允许设置PlacementGroup/false

  • 向创建的所有资源添加parallelcluster:cluster-name标签AWS ParallelCluster。

  • lambda:ListTags和添加lambda:UntagResource到AWS ParallelCluster API 堆栈ParallelClusterUserRole用于集群更新。

  • 启用配置参数HeadNode/Imds/时IMDS,将 IPv6 访问权限限制Secured为 root 和集群管理员用户。

  • 对于自定义 AMI,使用 AMI 根卷大小,而不是ParallelCluster默认的 35 GiB。可以在集群配置文件中更改该值。

  • 当配置参数Scheduling//SlurmQueuesComputeResources/低于要求的最低竞价请求完成价格SpotPrice时,自动禁用计算队列。

  • 在更新期间添加或删除分区时显示更改集中的requested_valuecurrent_value值。

  • 禁用深度学习 AMI 中提供的aws-ubuntu-eni-helper服务,以避免在配置具有多个网卡的实例configure_nw_interface.sh时发生冲突。

  • 移除对 Python 3.6。

  • 使用多个网卡配置实例时,将所有网络接口的 MTU 设置为 9001。

  • 配置计算节点 FQDN 时删除尾随点。

  • 管理中的静态节点POWERING_DOWN

  • 不会替换中的动态节点POWER_DOWN,因为作业可能仍在运行。

  • 只有在群集配置中更新Scheduling参数时,才在群集更新时重新启动clustermgtdslurmctld守护程序。

  • 更新slurmctldslurmdsystemd服务文件。

  • 启用配置参数HeadNode/Imds/时,仅允许根和集群管理员用户访问 IMDSSecured 的 IPv6。

  • 设置 Slurm 配置AuthInfo=cred_expire=70以减少节点不可用时重新启动的任务必须等待的时间。

  • 升级第三方食谱依赖关系:

    • apt-7.4.2(来自 apt-7.4.0)

    • 线路 4.5.2(来自第 4.0.1 行)

    • openssh-2.10.3(来自 openssh-2.9.1)

    • pyenv-3.5.1(来自 pyenv-3.4.2)

    • selinux-6.0.4(来自 selinux-3.1.1)

    • yum-7.4.0(来自 yum-6.1.1)

    • yum-epel-4.5.0(来自 yum-epel-4.1.2)

错误修复:

  • 修复了构建自定义 AMI 时跳过AWS ParallelCluster验证和测试步骤的默认行为。

  • 修复文件句柄泄漏问题computemgtd

  • 修复偶尔会导致已启动的实例因在 EC2DescribeInstances 响应中尚不可用而立即终止的争用情况。

  • 修复了 Arm 处理器对实例类型DisableSimultaneousMultithreading参数的支持。

  • 修复从先前版本升级时AWS ParallelCluster的 API 堆栈更新失败。在中添加用于ListImagePipelineImages操作的资源模式EcrImageDeletionLambdaRole

  • 修复AWS ParallelCluster API 在创建 FsX for Lustre 文件系统时添加了缺少从 Amazon S3 导入或导出所需的权限。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包GitHub。aws-parallelcluster-cookbook

2022 年 7 月 27 日

AWS ParallelCluster今年迄今为止仅限文档的更新

AWS ParallelCluster仅限文档的更新。

2022 年 7 月 6 日

AWS ParallelCluster版本 3.1.4 已发布

AWS ParallelCluster版本 3.1.4 已发布。

功能增强功能

功能更改

  • 将 Slurm 升级到 21.08.8-2 版本。

  • 在 JWT 支持下构建 Slurm。

  • 传递现有 PlacementGroup/Enabledtrue时不需要将PlacementGroup /设置为Id

  • 添加lambda:TagResource到ParallelCluster API 堆栈ParallelClusterUserRole用于创建集群和创建映像。

错误修复:

  • 修复了使用带--filters选项的export-cluster-logs命令时导出集群日志的功能。

  • 修复AWS Batch Docker 入口点以使用/home共享目录来协调多节点并行作业的执行。

  • 将 slurm 不健康的静态节点设置为关闭时重置节点地址,以避免将容量不足而出现故障的静态节点视为引导失败节点。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包GitHub。aws-parallelcluster-cookbook

2022 年 5 月 16 日

AWS ParallelCluster版本 2.11.7 已发布

AWS ParallelCluster版本 2.11.7 已发布。

功能更改

  • 将 Slurm 升级到 20.11.9 版本。

有关更改的详细信息,请参阅上的 aws-parallelcluster 软件包CHANGELOG文件GitHub。

2022 年 5 月 13 日

AWS ParallelCluster版本 3.1.3 已发布

AWS ParallelCluster版本 3.1.3 已发布。

功能增强功能

  • 在创建 HOME 目录的同时执行 SSH 密钥创建,例如,在 SSH 登录期间、切换到其他用户时以及以其他用户身份执行命令时。

  • 在配置参数 DirectoryService/中添加对 FQDN 和 LDAP 可分辨名称的支持DomainName。新的验证器现在会检查这两种语法。

  • 在头节点上部署的新update_directory_service_password.sh脚本支持手动更新 SSSD 配置中的 Active Directory 密码。密码由 aAWS Secrets Manager s 从集群配置中检索。

  • 添加在没有默认 VPC 的环境中部署 API 基础设施的支持。

功能更改

  • 在 x86_64 官方 AMI 和通过build-image命令创建的 AMI 中禁用更深层次的 C 状态,以保证高性能和低延迟。

  • 操作系统包更新和安全补丁。

  • 将亚马逊 Linux 2 基础映像更改为使用带有内核 5.10 的 AMI。

错误修复:

  • 由于新的 EC2 Image Builder 政策,成功构建映像DELETE_FAILED后修复构建映像堆栈。

  • 修复配置参数 DirectoryService/DomainAddr转换为 ldap_uri SSSD 属性时该属性包含多个域地址的问题。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件以及上的aws-parallelcluster-cookbook软件包GitHub。

2022 年 4 月 20 日

AWS ParallelCluster版本 2.11.6 已发布

AWS ParallelCluster版本 2.11.6 已发布。

功能增强功能:

  • 改善网络缺失时的异常管理。

功能更改

  • 操作系统包更新和安全补丁。

有关更改的详细信息,请参阅上的 aws-parallelcluster 软件包CHANGELOG文件GitHub。

2022 年 4 月 19 日

AWS ParallelCluster版本 3.1.2 已发布

AWS ParallelCluster版本 3.1.2 已发布。

功能更改

  • 将 Slurm 升级到版本21.08.6(从21.08.5)。

错误修复:

  • 修复在无法访问互联网的子网中部署集群时计算节点上/etc/hosts文件的更新。

  • 修复计算节点引导问题,使其在加入集群之前等待临时驱动器初始化。

有关更改的详细信息,请参阅上的 aws-parallelcluster 软件包CHANGELOG文件GitHub。

2022 年 3 月 2 日

AWS ParallelCluster版本 2.1.5 已发布

AWS ParallelCluster版本 2.11.5 已发布。

功能增强功能:

  • 添加对 aNEW_CHANGED_DELETED s value for LustreAutoImportPolicy 选项的支持。

  • 取消对 SGE 和 Torque 调度程序的支持。

  • 在 Amazon Linux 上禁用log4j-cve-2021-44228-hotpatch服务以避免导致潜在的性能下降。

功能更改

  • 将 NVIDIA 驱动程序升级到版本470.103.01(从470.82.01)。

  • 将 NVIDIA 架构管理器升级到版本470.103.01(从470.82.01)。

  • 将 CUDA 库升级到版本11.4.4(从11.4.3)。

  • 英特尔 MPI 已更新至 2021 年更新 4(从 2019 版更新 8 更新)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 4

  • 将头节点创建超时时间延长至一小时。

错误修复:

  • 通过浏览器修复 DCV 连接。

  • 修复 YAML 引用以防止自定义标签被解析为数字。

有关更改的详细信息,请参阅上的 aws-parallelcluster 软件包CHANGELOG文件GitHub。

2022 年 3 月 1 日

AWS ParallelCluster版本 3.1.1 已发布

AWS ParallelCluster版本 3.1.1 已发布。

  • 通过与通过管理的 Active Directory (AD) 域集成,增加对多用户群集环境的支持AWS Directory Service。

  • 在集群配置文件UseEc2Hostnames中添加对的支持。设置为 true 时,对计算节点使用 EC2 默认主机名(例如 ip-1-2-3-4)。

  • 添加对在无法访问互联网的子网中创建集群的支持。

  • 添加对每个队列的多个计算实例类型的支持。

  • 在装有 NVIDIA 显卡的 ARM 实例上添加对使用 Slurm 进行的 GPU 调度的支持。

  • 在AWS ParallelCluster CLI 中添加cluster-name (-n)、region (-r)、image-id (-i) 和cluster-configuration/image-configuration(-c) 的缩写标志。

  • 添加对 Lustre AutoImportPolicy参数的 FsXNEW_CHANGED_DELETED 选项的支持。

  • 为计算节点使用的 EC2LaunchTemplates 资源添加parallelcluster:compute-resource-name标签。

  • 改进在集群内创建的安全组,以便在为某些头节点和/或队列指定SecurityGroups参数时允许来自自定义安全组的入站连接。

  • 安装适用于 ARM 的 NVIDIA 驱动程序和 CUDA 库。

功能更改

  • 将 Slurm 升级到版本21.08.5(从20.11.8)。

  • 将 Slurm 插件升级到版本21.08(从20.11)。

  • 将 NICE DCV 升级到版本2021.3-11591(从2021.1-10851)。

  • 将 NVIDIA 驱动程序升级到版本470.103.01(从470.57.02)。

  • 将 NVIDIA 架构管理器升级到版本470.103.01(从470.57.02)。

  • 将 CUDA 升级到版本11.4.4(从11.4.0)。

  • 英特尔 MPI 已更新至 2021 年更新 4(从 2019 版更新 8 更新)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 4

  • 将 pMix 升级到版本3.2.3(从3.1.5)。

  • 删除将故障计算节点转储到/home/logs/compute。计算节点日志文件可在 EC2 控制台日志中CloudWatch和日志中找到。

  • 激发抑制SlurmQueuesComputeResources长度验证器的潜力。

  • 在 Amazon Linux 2 上实例启动时,请禁用软件包更新。

  • 构建AWS ParallelCluster自定义镜像时禁用 EC2ImageBuilder 增强型图像元数据。

  • 明确将cloud-init数据源设置为 EC2。这样可以节省 Ubuntu 和 CentOS 平台的启动时间。

  • 在计算队列启动模板名称中使用计算资源名称而不是实例类型。

  • 将 stderr 和 stdout 重定向到 CLI 日志文件,以防止 pcluster CLI 输出中出现不需要的文本。

  • 将配置/安装配方移至与主食谱分开调用的食谱中。现有入口点保持不变,向后兼容。

  • 在 AMI 构建期间下载英特尔 HPC 平台的依赖关系,以避免在集群创建期间联系互联网。

  • 配置 Slurm 节点时,请勿-从计算资源名称中删除。

  • 未安装 NVIDIA 驱动程序时,请勿在 Slurm 中配置 GPU。

  • 修复中的ecs:ListContainerInstances权限BatchUserRole

  • 修复了在未指定前缀(之前导出到前缀时导出到前缀)时导出集群日志的问题。None

  • 修复集群更新失败时无法执行回滚的问题。

  • 修复中的ecs:ListContainerInstances权限BatchUserRole

  • 如果指定了不支持HeadNodeRootVolume架构,KmsKeyId则会引发错误,从而修复架构。

  • 修复 Amazon FSx 缺少显示在CloudWatch控制面板中的指标。

  • 修复EfaSecurityGroupValidator。以前,在提供自定义安全组并启用 EFA 时,它有可能产生错误故障。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包GitHub。aws-parallelcluster-cookbook

2022 年 2 月 10 日

AWS ParallelCluster版本 3.0.3 已发布

AWS ParallelCluster版本 3.0.3 已发布。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-cookbook软件包GitHub。

2022 年 1 月 17 日

AWS ParallelCluster版本 2.1.4 已发布

AWS ParallelCluster版本 2.11.4 已发布。

更改包括:

  • CentOS移除了 8 个支持。 CentOS8 于 2021 年 12 月 31 日达到生命周期终结 (EOL)。

  • 升级Slurm Workload Manager到 20.11.8 版。

  • 将 Cinc 客户端升级到17.2.29

  • NICE DCV 更新为 NICE DCV 2021.2-11190。欲了解更多信息,请参阅《NICE DCV 管理员指南》中的 DCV 2021.2-11190 — 2021 年 10 月 11 日

  • 将 NVIDIA 驱动程序升级到版本470.82.01(从460.73.01)。

  • 将 CUDA 库升级到版本11.4.3(从11.3.0)。

  • 将 NVIDIA 架构管理器升级到470.82.01

  • 在 Amazon Linux 2 上实例启动时,请禁用软件包更新。

  • 在 Amazon Linux 上Ubuntu禁用无人值守的软件包更新 2.

  • 在CentOS 7 和Ubuntu 18.04 上安装 Python 3 版本的AWS CloudFormation帮助脚本。(它们已经在亚马逊 Linux 2 和Ubuntu 20.04 上使用过。)

修复包括:

  • 禁用ec2_iam_role参数更新。

  • 修复T2实例启动模板中的CpuOptions配置。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件aws-parallelcluster-cookbook以及上的aws-parallelcluster-node软件包GitHub。

2021 年 12 月 20 日

AWS ParallelCluster版本 3.0.2 已发布

AWS ParallelCluster版本 3.0.2 已发布。

Elastic Fabric Adapter安装程序升级到 1.14.1

  • EFA 配置:efa-config-1.9-1(来自efa-config-1.9

  • EFA 简介:efa-profile-1.5-1(来自efa-profile-1.5

  • EFA 内核模块:efa-1.14.2(来自efa-1.13.0

  • RDMA 内核:rdma-core-37.0(来自rdma-core-35

  • Libfabric:libfabric-1.13.2(来自libfabric-1.13.0

  • 打开 MPI:openmpi40-aws-4.1.1-2(无变化)

如果实例类型支持 GpuDirect RDMA,则始终处于启用状态。GdrSupport配置选项无效。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件aws-parallelcluster-cookbook以及上的aws-parallelcluster-node软件包GitHub。

2021 年 11 月 5 日

AWS ParallelCluster版本 2.1.3 已发布

AWS ParallelCluster版本 2.11.3 已发布。

  • 修复由于Son of Grid Engine源代码不可用而导致的pcluster createami故障arc.liv.ac.uk

Elastic Fabric Adapter安装程序升级到 1.14.1(从 1.13.0)

  • EFA 配置:efa-config-1.9-1(来自efa-config-1.9

  • EFA 简介:efa-profile-1.5-1(无变化)

  • EFA 内核模块:efa-1.14.2(来自efa-1.13.0

  • RDMA 内核:rdma-core-37.0(来自rdma-core-35.0amzn

  • Libfabric:libfabric-1.13.2(来自libfabric-1.13.0amzn1.0

  • 打开 MPI:openmpi40-aws-4.1.1-2(无变化)

如果实例类型支持 GpuDirect RDMA,则始终处于启用状态。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件aws-parallelcluster-cookbook以及上的aws-parallelcluster-node软件包GitHub。

2021 年 11 月 3 日

AWS ParallelCluster版本 3.0.1 已发布

AWS ParallelCluster版本 3.0.1 已发布。

集群配置迁移工具

  • 客户现在可以将其集群配置从AWS ParallelCluster版本 2 格式迁移到基于 YAML 的AWS ParallelCluster版本 3 格式。有关更多信息,请参阅pcluster3-config-converter

头节点可以停止

默认从~/.aws/config文件AWS 区域读取

  • 对于该pcluster命令,如果未在配置文件、环境或命令行中指定,则使用~/.aws/config文件[default]部分region设置中AWS 区域指定的默认值。AWS 区域

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件aws-parallelcluster-cookbook以及上的aws-parallelcluster-node软件包GitHub。

2021 年 10 月 27 日

AWS ParallelCluster版本 3.0.0 已发布

AWS ParallelCluster版本 3.0.0 已发布。

Support 通过Amazon API Gateway 进行集群管理

  • 客户现在可以使用Amazon API Gateway 通过 HTTP 终端节点管理和部署集群。这为脚本化或事件驱动的工作流程开辟了新的可能性。

    AWS ParallelCluster命令行界面 (CLI) 也经过重新设计以与此 API 兼容,并包括一个新的 JSON 输出选项。这项新功能使客户也可以使用 CLI 实现类似的构建块功能。

改进自定义 AMI 创建功能

  • 现在,客户可以访问更强大的流程,使用 EC2 Image Builder 创建和管理自定义 AMI。自定义 AMI 现在可以通过单独的AWS ParallelCluster配置文件进行管理,并且可以使用pcluster build-image命令行界面中的AWS ParallelCluster命令创建。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件aws-parallelcluster-cookbook以及上的aws-parallelcluster-node软件包GitHub。

2021 年 9 月 10 日

AWS ParallelCluster版本 2.1.2 已发布

AWS ParallelCluster版本 2.11.2 已发布。

更改包括:

  • 如果 EFA 安装在基本 AMI 中,请勿在引导时安装启用 GPUDirect RDMA (GDR) 的 EFA。

  • 锁定nvidia-fabricmanager软件包的版本以保持与安装的 NVIDIA 驱动程序版本同步AWS ParallelCluster。

  • Slurm:修复了节点启动时群集停止并重新启动时造成的问题。

  • Elastic Fabric Adapter安装程序更新为1.13.0:

    • EFA 配置:efa-config-1.9(无更改)

    • EFA 简介:efa-profile-1.5-1(无变化)

    • EFA 内核模块:efa-1.13.0(无变化)

    • RDMA 内核:rdma-core-35.0amzn(来自rdma-core-32.1amzn

    • Libfabric:libfabric-1.13.0amzn1.0(来自libfabric-1.11.2amzn1.1

    • 打开 MPI:openmpi40-aws-4.1.1-2(无变化)

  • 使用带有预安装的 EFA 包的自定义 AMI 时,在节点引导时不会对 EFA 进行任何更改。原始 EFA 软件包部署将保留。

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件和上的aws-parallelcluster-cookbook软件包GitHub。

2021 年 8 月 27 日

AWS ParallelCluster版本 2.1.1 已发布

AWS ParallelCluster版本 2.11.1 已发布。

更改包括:

  • 在读取文件时,使用noatime装载选项装载文件系统以停止记录上次访问时间。这提高了远程文件系统的性能。

  • Elastic Fabric Adapter安装程序更新至 1.12.3:

    • EFA 配置:efa-config-1.9(来自efa-config-1.8-1

    • EFA 简介:efa-profile-1.5-1(无变化)

    • EFA 内核模块:efa-1.13.0(来自efa-1.12.3

    • RDMA 核心:rdma-core-32.1amzn(无更改)

    • Libfabric:libfabric-1.11.2amzn1.1(无更改)

    • 打开 MPI:openmpi40-aws-4.1.1-2(无变化)

  • 用AWS Batch作调度器时,重试在头节点上安装aws-parallelcluster软件包。

  • 在具有超过 31 个 vCPUs 的实例类型SGE上构建时避免失败。

  • 固定到亚马逊CloudWatch代理的 1.247347.6 版本以避免 1.247348.0 版本中出现的问题。

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件和上的aws-parallelcluster-cookbook软件包GitHub。

2021 年 7 月 23 日

AWS ParallelCluster版本 2.11.0 已发布

AWS ParallelCluster版本 2.11.0 已发布。

更改包括:

  • 增加了对Ubuntu 20.04 (ubuntu2004) 的支持,删除了对Ubuntu 16.04 (ubuntu1604) 和亚马逊 Linux (alinux) 的支持。亚马逊 Linux 2 (alinux2) 仍然得到完全支持。有关更多信息,请参阅base_os

  • 删除了对 3.6 以下 Python 版本的支持。

  • 默认根卷大小增加到 35 Gibibyte(GiB)。有关更多信息,请参阅 compute_root_volume_sizemaster_root_volume_size

  • Elastic Fabric Adapter安装程序更新为1.12.2:

    • EFA 配置:efa-config-1.8-1(来自efa-config-1.7

    • EFA 简介:efa-profile-1.5-1(来自efa-profile-1.4

    • EFA 内核模块:efa-1.12.3(来自efa-1.10.2

    • RDMA 内核:rdma-core-32.1amzn(来自rdma-core-31.2amzn

    • Libfabric:libfabric-1.11.2amzn1.1(来自libfabric-1.11.1amzn1.0

    • 打开 MPI:openmpi40-aws-4.1.1-2(从openmpi40-aws-4.1.0

  • 已升级Slurm到版本20.11.7(从20.02.7)。

  • centos7和上安装 SSM 代理centos8。(SSM 代理预安装在alinux2ubuntu1804、和中ubuntu2004。)

  • SGE: 请务必使用短名称作为主机名过滤器qstat

  • 使用实例元数据服务版本 2 (IMDSv2) 来检索实例元数据服务 1 (IMDSv1)。有关更多信息,请参阅适用于 Linux 的 Amazon EC2 用户指南 中的实例元数据和用户数据

  • 将 NVIDIA 驱动程序升级到版本460.73.01(从450.80.02)。

  • 将 CUDA 库升级到版本11.3.0(从11.0)。

  • 将 NVIDIA 架构管理器升级到nvidia-fabricmanager-460

  • 将AWS ParallelCluster虚拟环境中使用的 Python 升级到3.7.10(从3.6.13)。

  • 将 Cinc 客户端升级到16.13.16

  • 升级以下第三方依赖项 aws-parallelcluster-cookbook

    • apt-7.4.0(来自apt-7.3.0)。

    • iptables-8.0.0(来自iptables-7.1.0)。

    • line-4.0.1(来自line-2.9.0)。

    • openssh-2.9.1(来自openssh-2.8.1)。

    • pyenv-3.4.2(来自pyenv-3.1.1)。

    • selinux-3.1.1(来自selinux-2.1.1)。

    • ulimit-1.1.1(来自ulimit-1.0.0)。

    • yum-6.1.1(来自yum-5.1.0)。

    • yum-epel-4.1.2(来自yum-epel-3.3.0)。

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件以及上的aws-parallelcluster-node软件包GitHub。aws-parallelcluster-cookbook

2021 年 7 月 1 日

AWS ParallelCluster版本 2.10.4 已发布

AWS ParallelCluster版本 2.10.4 已发布。

更改包括:

  • 已升级Slurm到版本20.02.7(从20.02.4)。

有关更改的更多详细信息,请参阅上的 aws-parallelcluster 软件包的 CHANGELO G 文件GitHub。

2021 年 5 月 15 日

AWS ParallelCluster版本 2.10.3 已发布

AWS ParallelCluster版本 2.10.3 已发布。

更改包括:

  • AWS在中国和. 基于 ARM 的AWS Graviton 实例上增加了对Ubuntu 18.04 和亚马逊 Linux 2 的支持AWS GovCloud (US)AWS 区域。

  • Elastic Fabric Adapter安装程序更新为1.11.2:

    • EFA 配置:efa-config-1.7(无更改)

    • EFA 简介:efa-profile-1.4(来自efa-profile-1.3

    • EFA 内核模块:efa-1.10.2(无变化)

    • RDMA 核心:rdma-core-31.2amzn(无更改)

    • Libfabric:libfabric-1.11.1amzn1.0(无更改)

    • 打开 MPI:openmpi40-aws-4.1.0(无变化)

有关更改的更多详细信息,请参阅上的 aws-parallelcluster 软件包的 CHANGELO G 文件GitHub。

2021 年 3 月 18 日

AWS ParallelCluster版本 2.10.2 已发布

AWS ParallelCluster版本 2.10.2 已发布。

更改包括:

  • 改进集群配置验证,以便在--dry-run模式下调用 Amazon EC2 RunInstancesAPI 操作时使用集群目标 AMI。

  • 将AWS ParallelCluster虚拟环境中使用的 Python 版本更新到 3.6.13。

  • 修复sanity_check Arm 实例类型。

  • 修复了centos8与Slurm调度器或 Arm 实例类型一起使用enable_efa时的问题。

  • apt update在非交互模式下运行 (-y)。

  • 修复encrypted_ephemeral = 使用alinux2和时为真centos8

有关更改的更多详细信息,请参阅上的 aws-parallelcluster 软件包的 CHANGELO G 文件GitHub。

2021 年 3 月 2 日

AWS ParallelCluster版本 2.10.1 已发布

AWS ParallelCluster版本 2.10.1 已发布。

更改包括:

  • 增加了对非洲(开普敦)(af-south-1)、欧洲(米兰)(me-south-1) 和中东(巴林)(me-south-1)AWS 区域。在启动时,支持在以下方式上受到限制:

    • 其中任何一个实例都不支持适用于 Lustre 的 FsX 和基于 Arm 的 Graviton 实例AWS 区域。

    • AWS Batch非洲(开普敦)不支持。

    • 非洲(开普敦)io2和欧洲(米兰)不支持 Amazon EBS 和gp3卷类型AWS 区域。

  • 增加了对亚马逊 EBSio2gp3卷类型的支持。有关更多信息,请参阅[ebs]章节[raid]章节

  • 增加了对基Elastic Fabric Adapter于 ARM 的 Graviton2 实例上运行alinux2ubuntu1804、或的支持ubuntu2004。有关更多信息,请参阅Elastic Fabric Adapter

  • 在 Arm AMI 上安装 Arm 性能库 20.2.1(alinux2centos8、和ubuntu1804)。有关更多信息,请参阅ARM 性能库

  • 英特尔 MPI 已更新至 2019 年更新 8(从 2019 版更新 7 更新)。有关更多信息,请参阅英特尔® MPI 库 2019 年更新 8

  • 从AWS Batch Docker 入口点移除了AWS CloudFormationDescribeStacks API 操作调用,以结束因限制而导致的任务失败AWS CloudFormation。

  • 改进了验证集群配置时对 Amazon EC2DescribeInstanceTypes API 操作调用的调用。

  • Amazon Linux 2 Docker 镜像是在为awsbatch调度程序构建 Docker 镜像时从 Amazon ECR Public 提取的。

  • 的默认实例类型从硬编码的t2.micro实例类型更改为免费套餐实例类型AWS 区域(t2.microt3.micro,视情况而定AWS 区域)。 AWS 区域没有免费套餐的t3.micro实例类型默认。

  • Elastic Fabric Adapter安装程序更新为1.11.1:

    • EFA 配置:efa-config-1.7(来自efa-config-1.5

    • EFA 简介:efa-profile-1.3(来自efa-profile-1.1

    • EFA 内核模块:efa-1.10.2(无变化)

    • RDMA 内核:rdma-core-31.2amzn(来自rdma-core-31.amzn0

    • Libfabric:libfabric-1.11.1amzn1.0(来自libfabric-1.10.1amzn1.1

    • 打开 MPI:openmpi40-aws-4.1.0(从openmpi40-aws-4.0.5

  • vpc_settingsvpc_id、和master_subnet_id参数现在是必需的。

  • 头节点nfsd中的守护程序现在设置为使用至少 8 个线程。如果内核超过 8 个,它将使用与内核一样多的线程。使用ubuntu1604时,该设置仅在节点重新启动后才会更改。

  • NICE DCV 更新为 NICE DCV 2020.2-9662。欲了解更多信息,请参阅《NICE DCV 管理员指南》中的 DCV 2020.2-9662— 2020 年 12 月 4 日

  • 的英特尔 MPI 和 HPC 软件包AWS ParallelCluster是从Amazon S3 中提取的。它们不再被从英特尔 yum 存储库中撤出。

  • 在创建官方AWS ParallelCluster AMI 期间,将multi-user.target所有操作系统的默认systemd运行级别更改为。只有在启用 DCV 时,才在头节点graphical.target上将运行级别设置为。这会防止图形服务(例如x/gdm)在不需要时运行。

  • 启用对头节点p4d.24xlarge实例的支持。

  • 增加在 Amazon Route 53 中注册Slurm节点时的最大重试次数。

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件以及上的aws-parallelcluster-node软件包GitHub。aws-parallelcluster-cookbook

2020 年 12 月 22 日

AWS ParallelCluster版本 2.10.0 已发布

AWS ParallelCluster版本 2.10.0 已发布。

更改包括:

  • 在所有AWS 区域(AWS中国和AWSGovCloud(美国)地区以外)增加了对CentOS 8 的支持。删除了对CentOS 6 的支持。

  • 增加了对计算节点p4d.24xlarge实例的支持。

  • 使用新enable_efa_gdr设置在 EFA 上添加了对 NVIDIRIC GPUDIRECT RDMA 的支持。

  • 增加了对Amazon FSx for Lustre 功能的支持。

  • 添加了 AmazonCloudWatch 控制面板,包括头节点指标和对集群日志的轻松访问。有关更多信息,请参阅亚马逊CloudWatch控制面板

  • 使用cluster_resource_bucket设置添加了对使用现有 Amazon S3 存储桶存储集群配置信息的支持。

  • 增强了pcluster createami命令。

    • 添加了在构建 AMI 时使用安装后脚本的--post-install参数。

    • 添加了在使用其他版本创建的基本 AMI 时失败的验证步骤AWS ParallelCluster。

    • 添加了在所选操作系统与基本 AMI 中的操作系统不同时失败的验证步骤。

    • 增加了对使用AWS ParallelCluster基本 AMI 的支持。

  • 增强了pcluster update命令。

    • 现在可以在更新期间更改tags设置。

    • 现在可以在更新期间调整队列的大小,而无需停止计算队列

  • slurm_resume脚本添加了all_or_nothing_batch配置参数。当Trueslurm_resume只有当所有待处理任务所需的所有实例都可用时,才Slurm会成功。有关更多信息,请参阅上的AWS ParallelCluster Wiki 中的all_or_nothing_batch发布简介GitHub。

  • Elastic Fabric Adapter安装程序更新至 1.10.1:

    • EFA 配置:efa-config-1.5(来自efa-config-1.4

    • EFA 简介:efa-profile-1.1(来自efa-profile-1.0.0

    • EFA 内核模块:efa-1.10.2(来自efa-1.6.0

    • RDMA 内核:rdma-core-31.amzn0(来自rdma-core-28.amzn0

    • Libfabric:libfabric-1.11.1amzn1.0(来自libfabric-1.10.1amzn1.1

    • 打开 MPI:openmpi40-aws-4.0.5(从openmpi40-aws-4.0.3

  • 在AWS GovCloud (US)区域中,启用对 NICE DCV 和的支持AWS Batch。

  • AWS在中国区域,启用对Amazon FSx for Lustre 的支持。

  • 将 NVIDIA 驱动程序升级到 450.80.02 版本(从 450.51.05 开始)。

  • 安装 NVIDIA Fabric Manager 以在支持的平台上启用 NVIDIA

  • 删除了默认值AWS 区域us-east-1。默认使用此查询顺序。

    • AWS 区域在-r--region参数中指定。

    • AWS_DEFAULT_REGION环境变量。

    • aws_region_nameAWS ParallelCluster配置文件[aws]部分中的设置(默认为~/.parallelcluster/config)。

    • regionAWS CLI配置文件[default]部分中的设置(默认为~/aws/config)。

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件以及上的aws-parallelcluster-node软件包GitHub。aws-parallelcluster-cookbook

2020 年 11 月 18 日

AWS ParallelCluster版本 2.9.0 已发布

AWS ParallelCluster版本 2.9.9.0 已发布。

更改包括:

  • 在与计算队列一起使用时,增加了对计算队列中的多个队列和多个实例类型的支持Slurm Workload Manager。使用队列时,不再使用 Auto Scaling 群组Slurm。Amazon Route 53 托管区域现已与集群一起创建,在使用Slurm调度程序时用于计算节点的 DNS 解析。有关更多信息,请参阅多队列模式

  • 在基于 Arm 的AWS Graviton 实例上增加了对 NICE DCV 的支持。

  • 添加了对在启动模板中不支持 CPU 选项的实例类型(例如*.metal实例类型)上禁用超线程的支持。

  • 为从头节点共享的文件系统添加了对 NFS 4 的支持。

  • 删除了在引导计算节点时对 cfn-in it 的依赖,以避免AWS CloudFormation在大量节点加入集群时受到限制。

  • Elastic Fabric Adapter安装程序更新至 1.9.5:

    • EFA 配置:efa-config-1.4(来自efa-config-1.3

    • EFA 简介:efa-profile-1.0.0(新)

    • 内核模块:efa-1.6.0(无更改)

    • RDMA 核心:rdma-core-28.amzn0(无更改)

    • Libfabric:libfabric-1.10.1amzn1.1(无更改)

    • 打开 MPI:openmpi40-aws-4.0.3(无变化)

  • 已升级Slurm到版本20.02.4(从19.05.5)。

  • NICE DCV 更新为 NICE DCV 2020.1-9012。有关更多信息,请参阅《N ICE DCV 管理员指南》中的 DCV 2020.1-9012 — 2020 年 8 月 24 日发行说明

  • 安装共享 NFS 驱动器时,使用头节点专用 IP 地址代替主机名。

  • 向日志添加了新的CloudWatch日志流:chef-clientclustermgtdcomputemgtdslurm_resume、和slurm_suspend

  • 在安装前和安装后脚本中添加了对队列名称的支持。

  • 在中AWS GovCloud (US)AWS 区域,使用Amazon DynamoDB 按需计费选项。有关更多信息,请参阅 Amazon DynamoDB 开发者指南中的按需模式

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件以及上的aws-parallelcluster-node软件包GitHub。aws-parallelcluster-cookbook

2020 年 9 月 11 日

AWS ParallelCluster版本 2.8.1 已发布

AWS ParallelCluster版本 2.8.8.1 已发布。

更改包括:

  • 禁用 NICE DCV 会话的屏幕锁定以防止用户被锁定。

  • 修复了包含基于 ARM 的基于AWS Graviton 的实例类型pcluster configure时的问题。

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件以及上的aws-parallelcluster-node软件包GitHub。aws-parallelcluster-cookbook

2020 年 8 月 4 日

AWS ParallelCluster版本 2.8.0 已发布

AWS ParallelCluster版本 2.8.8.0 已发布。

更改包括:

  • 添加了对基于 ARM 的基于AWS Graviton 的实例(如A1C6g)的支持。

  • 添加了对亚马逊 FSx for Lustre 的每日自动备份功能的支持。有关更多信息,请参阅 automatic_backup_retention_dayscopy_tags_to_backupsdaily_automatic_backup_start_timefsx_backup_id

  • 从中删除了对 Berkshelf 的依赖关系pcluster createami

  • 提高了的稳定性和用户体验pcluster update。有关更多信息,请参阅使用 pcluster update

  • Elastic Fabric Adapter安装程序更新至 1.9.4:

    • 内核模块:efa-1.6.0(更新自efa-1.5.1

    • RDMA 内核:rdma-core-28.amzn0(更新自rdma-core-25.0

    • Libfabric:libfabric-1.10.1amzn1.1(更新自libfabric-aws-1.9.0amzn1.1

    • 打开 MPI:openmpi40-aws-4.0.3(无变化)

  • 在CentOS 6 上将 NVIDIA 驱动程序升级到特斯拉版本 440.95.01,在所有其他发行版上升级到 450.51.05 版。

  • 在除CentOS 6 之外的所有发行版上将 CUDA 库升级到 11.0 版。

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件以及上的aws-parallelcluster-node软件包GitHub。aws-parallelcluster-cookbook

2020 年 7 月 23 日

AWS ParallelCluster版本 2.7.0 已发布

AWS ParallelCluster版本 2.7.7.0 已发布。

更改包括:

2020 年 5 月 19 日

AWS ParallelCluster版本 2.6.1 已发布

AWS ParallelCluster版本 2.6.1 已发布。

更改包括:

  • cfn-wire从存储在 Amazon Logs 中的CloudWatch日志中删除cfn-init-cmd和删除。有关更多信息,请参阅与 AmazonCloudWatch Logs

2020 年 4 月 17 日

AWS ParallelCluster版本 2.6.0 已发布

AWS ParallelCluster版本 2.6.0 已发布。

更改包括:

  • 添加了对 Amazon Linux 2 的支持

  • 现在 AmazonCloudWatch Logs 用于收集集群和调度程序日志。有关更多信息,请参阅与 AmazonCloudWatch Logs

  • 增加了对适用于 Lustre 的新 Amazon FSx 部署类型的支持,以SCRATCH_2PERSISTENT_1. 在Ubuntu 18.04 和Ubuntu 16.04 上Support FsX for Lustre。有关更多信息,请参阅 fsx

  • 在Ubuntu 18.04 上添加了对 NICE DCV 的支持。有关更多信息,请参阅通过 NICE DCV Connect 头节点

2020 年 2 月 27 日

AWS ParallelCluster版本 2.5.1 已发布

AWS ParallelCluster版本 2.5.1 已发布。

2019 年 12 月 13 日

AWS ParallelCluster版本 2.5.0 已发布

AWS ParallelCluster版本 2.5.0 已发布。0

2019 年 11 月 18 日

AWS ParallelCluster引入了对英特尔 MPI 的支持

AWS ParallelCluster版本 2.4.1 引入了对英特尔 MPI 的支持。

2019 年 7 月 29 日

AWS ParallelCluster引入了对 EFA 的支持

AWS ParallelCluster版本 2.4.0 引入了对Elastic Fabric Adapter (EFA) 的支持。

2019 年 6 月 11 日

AWS ParallelCluster在文档网站上发布的AWS文档

AWS ParallelCluster 文档现提供 10 种语言版本,并提供 HTML 和 PDF 两种格式。

2018 年 5 月 24 日