发行说明和文档历史记录 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

发行说明和文档历史记录

下表描述了 AWS ParallelCluster 用户指南 的主要更新和新功能。我们还经常更新文档来处理发送给我们的反馈意见。

变更说明日期

AWS ParallelCluster 用户界面版本 2024.07.1 已发布

我们很高兴地宣布发布 AWS ParallelCluster 用户界面版本 2024.07.1。

更改:

  • 添加对 AWS ParallelCluster 3.10.1 的支持。

错误修复:

  • 修复了导致工作会计信息呈现中断的错误。

  • 修复了功能标记机制中的一个错误,该错误会在 PC 3.10.0+ 上禁用所有 PC 3.2.0+ 功能。

安全性:

查看完整的更新日志

2024 年 7 月 24 日

AWS ParallelCluster 3.10.1 版本已发布

我们很高兴地宣布 AWS ParallelCluster 3.10.1 已发布。

错误修复:

  • 修复中国区域的镜像构建失败。

2024年7月8日

AWS ParallelCluster 用户界面版本 2024.07.0 已发布

我们很高兴地宣布 AWS ParallelCluster UI 版本 2024.07.0 已发布。

功能:

  • 增加了对 AWS ParallelCluster 版本 3.10.0 的支持。

2024 年 7 月 2 日

AWS ParallelCluster 3.10.0 版本已发布

我们很高兴地宣布 AWS ParallelCluster 3.10.0 已发布

要升级,请键入sudo pip install --upgrade aws-parallelcluster

增强功能:

  • 添加新的配置部分Scheduling/SlurmSettings/ExternalSlurmdbd以将集群连接到外部 Slurmdbd。

  • 允许在隔离的网络中运行构建映像。

  • 添加对亚马逊 Linux 2023 的支持。

  • 添加对 price-capacity-optimized as 的支持AllocationStrategy

  • 添加验证器以防止使用带有容量块的置放组。

更改:

  • 不再支持 CentOS 7。

  • 将 Cinc Client 从 18.2.7 升级到 18.4.12 版本。

  • 将 munge 升级到版本 0.5.16(从 0.5.15 开始)。

  • 将 Pmix 升级到 5.0.2(从 4.2.9 开始)。

  • 升级第三方说明书依赖项:

    • apt-7.5.22(来自 apt-7.5.14)

    • openssh-2.11.12(来自 openssh-2.11.3)

  • 移除第三方食谱:selinux-6.1.12。

  • 将EFA安装程序升级到1.32.0

    • Efa-driver:efa-2.8.0-1

    • EFA 配置:efa-config-1.16-1

    • EFA 简介:efa-profile-1.7-1

    • libfabric-AWS:libfabric-aws-1.21.0-1

    • RDMA 内核:rdma-core-50.0-1

    • 打开MPI:openmpi40-aws-4.1.6-3openmpi50-aws-5.0.2-12

  • 将NVIDIA驱动程序升级到版本 535.183.01(从 535.154.05 开始)。

  • 将 Python 升级到 3.9.19(从 3.9.17 开始)。

  • 将英特尔MPI库升级到 2021.12.1.8(从 2021.9.0.43482 起)。

错误修复:

  • 将数据存储库关联配置修复为AutoExportPolicyAutoImportPolicy选配置。

  • 修复了集群删除期间的一个问题,该问题现在可以在实例处于关闭或终止状态时完成计算队列清理。这是为了避免终止周期较长的实例类型的集群删除失败。

  • 允许在集群配置Monitoring部分启用 cloudwatch 控制面板并禁用警报。

  • 允许 ParallelCluster 自定义资源使用禁止验证器。PclusterCluster/SuppressValidators

  • 已删除,/etc/profile.d/pcluster.sh因此它不会在每次用户登录时执行,也cfn_bootstrap_virtualenv不会添加到PATH环境变量中。

  • 通过将字段替换为DescribeCluster作为响应failureReasonfailures修复ParallelClusterAPI规范。

  • 通过添加缺失的 CloudFormation 堆栈状态来修复ParallelClusterAPI规范:IMPORT_*REVIEW_IN_PROGRESS、和UPDATE_FAILED

  • 修复了阻止集群更新包含传输中加密EFS的文件系统的问题。

  • 修复了在用于共享内部数据时 slurmctld 和 slurmdbd 服务在头节点重启时无法重新启动的问题。EFS

  • 在 Ubuntu 系统上,删除与来自 Parallelcluster 的配置冲突的 cloud-init 日志文件的默认 logrotate 配置。

  • 修复 RHEL 8.10 或更高版本的映像构建失败。

2024 年 6 月 27 日

1.0.0 的 Terraform Provider 已发布 AWS ParallelCluster

我们很高兴地宣布推出适用于 1.0.0 的 Terraform Provider。 AWS ParallelCluster

功能:

2024 年 6 月 26 日

1.0.0 版的 Terraform 模块已发布 AWS ParallelCluster

我们很高兴地宣布发布适用于 1.0.0 的 Terraform Module。 AWS ParallelCluster

功能:

2024 年 6 月 26 日

AWS ParallelCluster 3.9.3 版本已发布

我们很高兴地宣布 AWS ParallelCluster 3.9.3 已发布

要升级,请键入 sudo pip install --upgrade aws-parallelcluster

功能:

  • 中添加了对FSx Lustre作为共享存储类型的支持us-iso-east-1

错误修复:

  • cloud_dns从 Slurm 配置SlurmctldParameters中移除以避免 Slurm 扇出问题。

    这不是必需的,因为我们在实例启动时设置了 IP 地址。

2024年6月19日

AWS ParallelCluster 3.9.2 版本已发布

我们很高兴地宣布 AWS ParallelCluster 3.9.2 已发布

功能:

  • 升级Slurm到 23.11.7(从 23.11.4 开始)。

  • 有关更多详细信息,请参阅CHANGELOG3.9.2上的 GitHub。

2024 年 5 月 28 日

AWS ParallelCluster 用户界面版本 2024.05.0 已发布

AWS ParallelCluster 用户界面版本 2024.05.0 已发布。

错误修复:

  • 修复了用户打开 Job Status 面板时前端屏蔽界面的错误。

  • 完整更新日志

2024 年 5 月 14 日

AWS ParallelCluster 用户界面版本 2024.04.0 已发布

AWS ParallelCluster 用户界面版本 2024.04.0 已发布。

功能:

2024 年 4 月 17 日

AWS ParallelCluster 3.9.1 版本已发布

我们很高兴地宣布 AWS ParallelCluster 3.9.1 已发布

要升级,请输入以下内容:sudo pip install --upgrade aws-parallelcluster

错误修复

  • 在更新群集操作中卸载文件系统时,移除对共享存储 mountdir 的递归删除。

2024 年 4 月 11 日

AWS ParallelCluster 3.9.1 版本已发布

我们很高兴地宣布 AWS ParallelCluster 3.9.1 已发布

要升级,请输入以下内容:sudo pip install --upgrade aws-parallelcluster

错误修复

  • 在更新群集操作中卸载文件系统时,移除对共享存储 mountdir 的递归删除。

2024 年 4 月 11 日

AWS ParallelCluster 用户界面版本 2024.03.0 已发布

AWS ParallelCluster 用户界面版本 2024.03.0 已发布。

功能:

  • 增加了对 AWS ParallelCluster 版本 3.9.0 的支持

  • 增加了对 Ubuntu 22.04 和红帽企业 Linux 9 的支持

  • 已弃用 Ubuntu 18.04

错误修复

  • 修复了使用多个集群时导致某些集群不显示的问题

有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG文件 GitHub。

2024 年 3 月 12 日

AWS ParallelCluster 3.9.0 版本已发布

我们很高兴地宣布 AWS ParallelCluster 3.9.0 已发布

要升级,请输入以下内容:sudo pip install --upgrade aws-parallelcluster

增强功能:

  • 添加配置参数DeploymentSettings/DefaultUserHome以允许用户将默认用户的主目录移到/local/home而不是/home(默认)。

  • 无需停止计算队列即可更新MinCountMaxCountQueueComputeResource配置参数。现在可以通过将设置Scheduling/SlurmSettings/QueueUpdateStrategy为来更新它们TERMINATE。 AWS ParallelCluster 将仅终止在通过群集更新调整群集容量时移除的节点。

  • 允许在 FileCache 不替换计算和登录队列的情况下更新 Efs FsxLustre FsxOntap、、 FsxOpenZfs 和类型的外部共享存储。

  • 添加对的支持RHEL9。

  • 添加对通过build-image流程CustomAmi创建的 Rocky Linux 9 的支持。目前还没有官方的 AWS ParallelCluster Rocky9 AMI Linux 可用。

  • CommunicationParameters从 Slurm “自定义设置” 拒绝列表中删除。

  • 在支持OSes中添加DeploymentSettings/DisableSudoAccessForDefaultUser参数以禁用默认用户的 sudo 访问权限。

  • 对FSx于 Lustre 文件系统的更改由 ParallelCluster以下人员创建:将 Lustre 服务器版本更改为 2.15.

  • 通过['cluster']['nvidia']['kernel_open']食谱节点属性在构建 Nvidia 驱动程序时AMI,增加了在开源和闭源 Nvidia 驱动程序之间进行选择的可能性。

  • * 添加 clustermgtd 配置选项ec2_instance_missing_max_count以允许可配置的重试次数,以实现最终的 A EC2 mazon 描述实例与运行的实例保持一致。

更改

  • 升级Slurm到 23.11.4(从 23.02.7 开始)。

  • 将NVIDIA驱动程序升级到版本 535.154.05。

  • 在 pc CLI luster 中添加对 Python 3.11、3.12 的支持,以及。 aws-parallelcluster-batch-cli

  • 使用 Amazon EC2 DescribeInstances 响应NetworkCardIndex列表中的网卡索引构建网络接口,而不是遍历MaximumNetworkCards范围。

  • 使用实例类型 P3、G3、P2 和 G2 时,集群创建失败,因为它们的GPU架构与 3.8.0 版本中引入的开源 Nvidia 驱动程序 (OpenRM) 不兼容。

  • 升级第三方食谱依赖项:nfs-5.1.2(从 nfs-5.0.0 开始)

  • 将EFA安装程序升级到 1.30.0.

    • Efa-driver:efa-2.6.0-1

    • EFA 配置:efa-config-1.15-1

    • EFA 简介:efa-profile-1.6-1

    • libfabric-AWS:libfabric-aws-1.19.0

    • RDMA 内核:rdma-core-46.0-1

    • 打开MPI:openmpi40-aws-4.1.6-2openmpi50-aws-5.0.0-11

  • 升级NICEDCV到版本 2023.1-16388.

    • server:2023.1.16388-1

    • xdcv:2023.1.565-1

    • gl:2023.1.1047-1

    • web_viewer:2023.1.16388-1

错误修复

  • 修复了从登录节点以 Active Directory 用户身份提交任务时任务失败的问题。该问题是由头节点上与外部 Active Directory 集成的配置不完整引起的。

  • 重构在 CloudFormation 模板 parallelclusser-policies.yaml 中定义的IAM策略,以防止由于策略超出限制而导致部署失败。 ParallelCluster API IAM

  • 修复了当头节点写入密钥所需的时间超过预期时间时,登录节点无法启动的问题。

有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG文件 GitHub。

2024 年 3 月 5 日

AWS ParallelCluster 用户界面版本 2024.02.0 已发布

AWS ParallelCluster 用户界面版本 2024.02.0 已发布

更改:

  • 将 Lambda 运行时环境更新为 Python v3.9

有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG文件 GitHub。

2024 年 2 月 8 日

AWS ParallelCluster 用户界面版本 2023.12.0 已发布

AWS ParallelCluster 用户界面版本 2023.12.0 已发布。

功能:

  • 增加了对使用私有网络进行PCUI部署的支持。

  • 增加了可选地将权限边界应用于PCUI和PCAPI基础架构创建的每个IAM角色的可能性

  • 增加了可选地为和PCAPI基础架构创建的每个IAM角色和策略应用前缀的可能性。PCUI

  • 增加了对 ParallelCluster 版本 3.8.0 的支持,向导中没有功能对等。

有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG文件 GitHub。

2023 年 12 月 21 日

AWS ParallelCluster 3.8.0 版本已发布

AWS ParallelCluster 3.8.0 版本已发布。

增强功能:

  • 添加对 Amazon 机器学习EC2容量块的支持。

  • 添加对通过build-image流程CustomAmi创建的 Rocky Linux 8 的支持。目前还没有官方的 AWS ParallelCluster Rocky8 AMI Linux 可用。

  • 添加Scheduling/ScalingStrategy参数以控制为Slurm计算节点启动 Amazon EC2 实例时要使用的集群扩展策略。可能的值为all-or-nothinggreedy-all-or-nothingbest-effort、,且all-or-nothing为默认值。

  • 添加HeadNode/SharedStorageType参数以使用EFS存储而不是从头节点根卷NFS导出的集群内共享文件系统资源:Intel ParallelCluster、Slurm 和数据。/home此增强功能减少了头节点网络的负载。

  • 允许通过配置文件的SharedStorage部分/home作为EFS或FSx外部共享存储进行安装。

  • 添加新参数SlurmSettings/MungeKeySecretArn以允许使用 Secrets Manager 中用户定义的外部 AWS 密MUNGE钥。

  • 添加Monitoring/Alarms/Enabled参数以切换集群的 Amazon CloudWatch 警报。

  • 添加头节点警报以监控 Amazon 运行EC2状况检查、CPU利用率和头节点的整体状态,并将其添加到使用集群创建的 CloudWatch 控制面板中。

  • 将 as 用于托管 Lustre 时PERSISTENT_2,添加DeploymentType对数据存储库关联FSx的支持。

  • 添加Scheduling/SlurmSettings/Database/DatabaseName参数以允许用户为数据库服务器上用于Slurm记账的数据库指定自定义名称。

  • 在计算资源CapacityReservationTarget/CapacityReservationIdInstanceType进行配置时,请创建一个可选的配置参数。

  • 增加了为由创建的IAM角色和策略指定前缀的可能性 AWS ParallelCluster API。

  • 增加了为所创建的IAM角色和策略指定要应用的权限边界的可能性 AWS ParallelCluster API。

更改

  • 升级Slurm到 23.02.7(从 23.02.6 开始)。

  • 将NVIDIA驱动程序升级到版本 535.129.03。

  • 将CUDA工具包升级到版本 12.2.2。

  • 使用开源NVIDIAGPU驱动程序 (OpenRM) 作为 Linux 的NVIDIA内核模块,而不是NVIDIA闭源模块。

  • 取消对Slurm恢复程序中all_or_nothing_batch配置参数的支持,转而使用新的Scheduling/ScalingStrategy群集配置。

  • 将集群警报命名约定更改为 “[集群名称]-[组件名称]-[指标]”。

  • 将根EBS卷和其他卷的ADC区域中的默认卷类型从 gp2 更改为 gp3。

  • 的可选权限边界现已应用于API基础架构创建的每个IAM角色。 AWS ParallelCluster API

    • 将EFA安装程序升级到1.29.1

    • Efa-driver:efa-2.6.0-1

    • EFA 配置:efa-config-1.15-1

    • EFA 简介:efa-profile-1.5-1

    • libfabric-AWS:libfabric-aws-1.19.0-1

    • RDMA 内核:rdma-core-46.0-1

    • 打开MPI:openmpi40-aws-4.1.6-1

  • 除了使用 2.3.1 版本的 Centos 7 之外OSes,所有支持版本都升级GDRCopy到 2.4 版。

  • 升级aws-cfn-bootstrap到 2.0-28 版本。

  • 在中添加对 Python 3.10 的 aws-parallelcluster-batch-cli支持。

错误修复

  • 修复修改计算资源中声明的实例类型列表时,集群更新回滚后扩展配置不一致的问题。

  • 修复通过集群配置文件在与外部LDAP服务器集成的集群中切换没有 root 权限的用户时生成用户SSH密钥的问题。

  • 修复了设置时禁用省Slurm电模式的问题ScaledownIdletime = -1

  • 修复Slurm会计update_slurm_database_password.sh脚本中Slurm安装目录的硬编码路径。

2023 年 12 月 19 日

AWS ParallelCluster 3.7.2 版本已发布

AWS ParallelCluster 3.7.2 版本已发布。

更改:

  • 升级Slurm到 23.02.6。

2023 年 10 月 25 日

AWS ParallelCluster 用户界面版本 2023.10.0 已发布

AWS ParallelCluster 用户界面版本 2023.10.0 已发布。

功能:

  • 增加了对 ParallelCluster 3.7.2 的支持,向导中的功能对等仅限于FSx文件缓存和与多种实例类型的基于内存的调度兼容。

错误修复:

  • 修复了PCUI无权与 Cost Explorer 交互时导致界面错误的问题。

改进

  • 通过将访问令牌TTL从 10 分钟缩短到 5 分钟,提高了安全性。

有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG文件 GitHub。

2023 年 10 月 20 日

AWS ParallelCluster 3.7.1 版本已发布

AWS ParallelCluster 3.7.1 版本已发布。

更改:

  • 升级Slurm到 23.02.5(从 23.02.4 开始)。

    • 将 Pmix 升级到 4.2.6(从 3.2.3 开始)。

    • 将 libjwt 升级到 1.15.3(从 1.12.0 开始)。

  • 将EFA安装程序升级到1.26.1,修复 P5 中的RDMA写入数据问题。

    • EFA 司机:。efa-2.5.0-1

    • EFA 配置:。efa-config-1.15-1

    • EFA 简介:。efa-profile-1.5-1

    • libfabric-aws:。libfabric-aws-1.18.2-1

    • ERdma-核心:rdma-core-46.0-1

    • 打开MPI:openmpi40-aws-4.1.5-4

2023 年 9 月 22 日

AWS ParallelCluster 3.7.0 版本已发布

AWS ParallelCluster 3.7.0 版本已发布。

增强功能:

  • Support 使用配置YAML文件在计算资源中 AWS ParallelCluster 配置静态和动态节点优先级。

  • 添加了对 Ubuntu 22 的支持。RSA默认情况下不支持密钥。

  • 添加了队列配置设置 JobExclusiveAllocation,用于在任何给定时间在分区中以独占模式将节点分配给单个作业。

  • 允许在创建集群和更新集群时覆盖aws-parallelcluster-node软件包。对于头节点,这适用于集群更新。仅用于开发目的。

  • 避免在计算节点上启动NFS服务器。

  • 添加了对登录节点的支持。

  • 当为Slurm计算资源指定了多种实例类型时,允许基于内存的调度。

  • 添加了支持,允许将现有 Amazon 文件缓存作为共享存储进行挂载。

更改:

  • 默认为 Slurm 动态节点分配 1000 的优先级(权重)。这样,Slurm 便可以将空闲静态节点设置为优先于空闲动态节点。

  • 使aws-parallelcluster-node守护程序仅处理 AWS ParallelCluster 托管Slurm分区。

  • EFS-utils 监视器轮询间隔增加到 10 秒。当 EncryptionInTransit 设置为 true 时(这是导致监视器运行的唯一条件),此更改适用。

  • 将EFA安装程序升级到1.25.1

    • Efa-driver:efa-2.5.0-1(从 efa-2.1.1g

    • Efa-config:efa-config-1.15-1(从 efa-config-1.13-1

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.18.1-0(从 libfabric-aws-1.17.1-1

    • Rdma-core:rdma-core-46.0-1(从 rdma-core-43.0-1

    • 打开MPI:openmpi40-aws-4.1.5-4(来自 openmpi40-aws-4.1.5-1

  • 将 Slurm 升级到版本 23.02.4。

  • 将 Imds/ 的默认值ImdsSupport 从 v1.0 更改为 v2.0。

  • 弃用 Ubuntu 18。

  • 将默认根卷大小更新为 40 GB,以补偿对 Centos 7 的限制。

  • 限制头节点内文件 /tmp/wait_condition_handle.txt 的权限,只有根用户才能读取。

  • 创建Slurm分区节点列表映射JSON文件,供节点包守护程序使用,识别由 PC 管理的分区和节点列表。Slurm

  • 将NVIDIA驱动程序升级到版本 535.54.03。

  • 将CUDA库升级到版本 12.2.0。

  • 将NVIDIA结构管理器升级到 nvidia-fabricmanager-535。

  • 仅适用于 Ubuntu 22.04 的 ARM PL 升级到 23.04.1 版。

  • 升级NICEDCV到版本2023.0-15487

    • Server:2023.0.15487-1

    • xdcv:2023.0.551-1

    • gl:2023.0.1039-1

    • web_viewer:2023.0.15487-1

错误修复:

  • ScaledownIdletime 值添加验证功能,以防止设置的值低于 -1。

  • 修复在已启用的GPU实例AMI上使用 Ubuntu 深度学习创建集群失败的问题DCV。

  • 修复了使用创建 ParallelCluster CloudFormation 自定义资源提供程序时导致创建悬挂IAM策略的问题 CustomLambdaRole。

  • 修复了使用SlurmSettings/Dns/UseEc2Hostnames等于时导致具有多个网络接口的实例上的计算节点DNS名称不对齐的问题 True

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2023 年 8 月 30 日

仅文档发布

AWS ParallelCluster 第 3 版特定用户指南已发布。

仅文档发布:

  • AWS ParallelCluster 版本 3 有自己的单独用户指南。

2023 年 7 月 17 日

AWS ParallelCluster 版本 3.6.1 已发布

AWS ParallelCluster 3.6.1 版本已发布。

更改:

  • 如果将计算节点添加到多个 Slurm 分区,请避免复制 clustermgtd 看到的节点。

错误修复:

  • 删除根卷设备名称(/dev/sda1/dev/xvda)的硬编码,然后从期间使用的中检索它create-cluster。AMI

  • 修复使用ElasticIp设置为的 CloudFormation 自定义资源时集群创建失败的问题True

  • 修复使用包含大型配置文件的 AWS CloudFormation 自定义资源时集群创建和更新失败的问题。

  • 修复了无法在 Ubuntu 上禁用ptrace保护且不允许在 libfabric 中使用跨内存附加 (CMA) 的问题。

  • 修复了使用多个实例类型且未返回任何实例时的快速容量不足故障转移逻辑。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2023 年 7 月 5 日

AWS ParallelCluster 用户界面版本 2023.06.0 已发布

AWS ParallelCluster 用户界面版本 2023.06.0 已发布。

更改:

  • 已将默认 AWS ParallelCluster API版本升级到 3.6.0。

错误修复:

  • 修复了 AWS GovCloud (美国西部)区域部署中断的问题。

  • 现在,在创建开始后,拆分面板可以正确加载集群详细信息。

注意:

  • 成本监控功能在中不可用 AWS GovCloud (US) Regions。

有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG文件 GitHub。

2023 年 6 月 7 日

AWS ParallelCluster 3.6.0 版本已发布

AWS ParallelCluster 3.6.0 版本已发布。

文档:

增强功能:

  • 添加对的支持RHEL8。

  • 添加用于创建和管理集群的AWS CloudFormation 自定义资源 CloudFormation。

  • 在配置YAML文件中添加对自定义群集SlurmAWS ParallelCluster 配置的支持。

  • 使用对Slurm的支持进行构建LUA。

  • 将每个集群的最大队列数限制从 10 增加到 50。每个队列最多可以有 50 个计算资源。每个集群最多可以有 50 个计算资源。

  • 添加了支持,允许为 OnNodeStartOnNodeConfiguredOnNodeUpdated 参数中配置的事件指定一系列多个自定义操作脚本

  • 添加新的配置部分HealthChecks/Gpu,用于在作业运行之前对计算节点进行运行GPU状况检查。

  • SlurmQueuesSlurmQueues/ComputeResources 配置中添加了对 Tags 的支持。

  • Monitoring 配置中添加了对 DetailedMonitoring 的支持。

  • 在 AWS ParallelCluster CloudWatch 仪表板中添加mem_used_percent头节点内存和根卷磁盘利用率跟踪disk_used_percent指标,并设置警报以监控这些指标。

  • 对 AWS ParallelCluster 托管的 日志添加了日志轮换支持。

  • CloudWatch 控制面板中跟踪常见的计算节点错误和动态节点最长空闲时间。

  • 强制DCV身份验证器服务器在创建SSL套接字时至少使用TLS-1.2协议。

  • 在除aarch64centos7和之外的所有支持的操作系统上安装 NVIDIAData Center GPU Manager (DCGM) 软件包alinux2

  • 默认加载内核模块 nvidia-uvm,为驱动程序提供统一虚拟内存 (UVM) 功能。CUDA

  • NVIDIA持久守护程序安装为系统服务。

更改:

  • 将 Slurm 升级到版本 23.02.2(从版本 22.05.8)。

  • 将 munge 升级到版本 0.5.15(从版本 0.5.14)。

  • 将 Slurm TreeWidth 设置为 30。

  • 将 Slurm prologepilog 配置分别设置为目标目录 /opt/slurm/etc/scripts/prolog.d//opt/slurm/etc/scripts/epilog.d/

  • 将 Slurm BatchStartTimeout 设置为最长 3 分钟,以便在计算节点注册期间运行 Prolog 脚本。

  • 将 CloudWatch 日志RetentionInDays的默认值从 14 天增加到 180 天。

  • 将EFA安装程序升级到1.22.1

    • Dkms:2.8.3-2

    • Efa-driver:efa-2.1.1g(无变化)

    • Efa-config:efa-config-1.13-1(无变化)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.17.1-1(从 libfabric-aws-1.17.0-1

    • Rdma-core:rdma-core-43.0-1(无变化)

    • 打开MPI:openmpi40-aws-4.1.5-1(无变化)

  • 在 Amazon Linux 2 上将 Lustre 客户端版本升级到 2.12。Lustre 客户端 2.12 已经安装在 Ubuntu 20.04、18.04 和 CentOS >= 7.7 上。

  • 在 CentOS 7.6 上将 Lustre 客户端版本升级到 2.10.8

  • 将NVIDIA驱动程序升级到版本470.182.03(从版本470.141.03)。

  • 将NVIDIA结构管理器升级到版本470.182.03(从版本470.141.03)。

  • 将NVIDIACUDA工具包升级到版本11.8.0(从版本11.7.1)。

  • 将NVIDIACUDA示例升级到版本11.8.0

  • 将英特尔MPI库升级到 2021 版更新 9(从 2021 版更新 6 开始)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 9

  • 升级NICEDCV到版本2023.0-15022(从版本2022.2-14521)。

    • server:2023.0.15022-1(从版本 2022.2-14521-1)。

    • xdcv:2023.0.547-1(从版本 2022.2.519-1)。

    • gl:2023.0.1027-1(从版本 2022.2.1012-1)。

    • web_viewer:2023.0.15022-1(从版本 2022.2.14521-1)。

  • aws-cfn-bootstrap 升级到版本 2.0-24

  • 升级 CodeBuild 环境在为集 AWS Batch 群构建容器镜像时使用的镜像:

    • aws/codebuild/amazonlinux2-x86_64-standard:4.0(从 aws/codebuild/amazonlinux2-x86_64-standard:3.0)。

    • aws/codebuild/amazonlinux2-aarch64-standard:2.0(从 aws/codebuild/amazonlinux2-aarch64-standard:1.0)。

错误修复:

  • 修复 Amazon EFS 和 Amazon FSx 网络安全组验证器,避免报告虚假错误。

  • 修复了 Image Builder 在 build-image 操作期间创建的资源缺少标记的问题。

  • 修复了 MaxCount 的更新策略,使其始终对 MaxCount 属性进行数值比较。

  • 修复了具有多个网卡的计算节点实例上的 IP 一致性问题。

  • 修复了在执行队列参数更新后 Slurm 会计配置未更新时 slurm_parallelcluster_slurmdbd.confStoragePass 的替换问题。

  • 修复了在使用现有EFS文件系统创建集群时导致创建悬空安全组的问题。

  • 修复了重启 cfn-hup 进程守护程序时导致其失败的问题。

  • 将带有 INVALID_REG 标记的动态节点视为 Slurm 保护模式的引导失败。node_replacement_timeout 之后 Slurm 注册失败的静态节点已被视为引导失败。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2023 年 5 月 22 日

AWS ParallelCluster 用户界面版本 2023.05.0 已发布

AWS ParallelCluster 用户界面版本 2023.05.0 已发布。

增强功能:

  • 从 3.6.0 AWS ParallelCluster 版开始,添加对 8 的支持。RHEL

  • 添加了集群成本监控功能。

  • 从 3.6.0 AWS ParallelCluster 版开始,增加队列和计算资源配额。

更改:

  • 改进了集群创建向导的用户界面。

  • 提高了 AWS ParallelCluster UI 部署的速度。

  • 改进了添加新用户的界面。

  • 队列默认位于头节点子网中。

错误修复:

  • 集群创建完成后,切换到正确的区域。

  • 修复了“编辑集群”功能中的加载指示器显示问题。

  • 修复移除EBS SnapshotId 属性时创建集群的问题。

有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG文件 GitHub。

2023 年 5 月 16 日

AWS ParallelCluster 用户界面版本 2023.04.0 已发布

AWS ParallelCluster 用户界面版本 2023.04.0 已发布。

增强功能:

  • 重新设计了集群创建向导。

  • 重新设计了集群日志页面。

  • 为共享存储添加了自定义名称设置。

  • 在向集群添加存储时添加了多个存储选项。

  • 添加对 Amazon EFS 和 Lustre FSx 的DeletionPolicy支持。

  • 在集群配置中添加了 ImdsSupport 设置。

  • 添加了对 C7 实例类型的支持。

  • 添加了教程恢复到以前的 AWS Systems Manager 文档版本

更改:

  • 集群配置大小不YAML超过 1MB。

  • 由于使用 Boto3 IAM 临时凭证进行授权,用户未注销。

  • 选择HPC实例时禁用多线程选项。

  • 删除了集群创建页面上的禁用回滚功能。

  • 在提供所需信息之前,用户将无法使用用户 AWS ParallelCluster 界面。

  • 最多可以添加 10 个队列。

  • 在 AWS ParallelCluster UI 安装过程中不覆盖 SSM-SessionManagerRunShell 文档。

错误修复:

  • 修复了损坏的重置密码链接。

  • 修复了因 EcrPrivateRepository 不为空而导致 delete stack 损坏的问题

  • 修复了多用户管理属性部分中 “生成SSH密钥” 复选框的初始化问题。

  • 修复了因作业具有未定义属性而导致崩溃的问题。

  • 固定SCRATCHFSx设置。

  • 修复了“启动和停止实例”按钮,单击一次后仍处于启用状态。

有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG文件 GitHub。

2023 年 4 月 17 日

AWS ParallelCluster 3.5.1 版本已发布

AWS ParallelCluster 3.5.1 版本已发布。

增强功能:

更改:

  • 将EFA安装程序升级到1.22.0

    • Efa-driver:efa-2.1.1g(从 efa-2.1.1-1

    • Efa-config:efa-config-1.13-1(从 efa-config-1.12-1)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.17.0-1(从 libfabric-aws-1.16.1amzn3.0-1

    • Rdma-core:rdma-core-43.0-1(无变化)

    • 打开MPI:openmpi40-aws-4.1.5-1(来自openmpi40-aws-4.1.4-3

    升级NICEDCV到版本2022.2-14521

    • server:2022.2.14521-1

    • xdcv:2022.2.519-1

    • gl:2022.2.1012-1

    • web_viewer:2022.2.14521-1

错误修复:

  • 修复在集群更新过程中移除共享 Amazon EBS 卷/etc/exportsMountDir和之间的模式匹配导致的潜在节点启动失败。

  • 修复了每次 clustermgtd 迭代时 compute_console_output 日志文件被截断的问题。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2023 年 3 月 29 日

AWS ParallelCluster 3.5.0 版本已发布

AWS ParallelCluster 3.5.0 版本已发布。

增强功能:

  • 使用 AWS ParallelCluster UI 访问和管理集群。

  • 在 CloudFormation 模板中添加版本化 AWS ParallelCluster 策略,供您在工作负载中引用。

  • 添加可与自己的代码一起使用的 AWS ParallelCluster Python 库。

  • 在计算节点引导失败时向 Amaz CloudWatch on 添加计算节点控制台输出的日志记录。

  • 集群创建失败时向 describe-cluster 输出中添加了包含失败代码和原因的失败字段。

  • 添加了验证器以防止在调用子进程模块时注入恶意字符串。

  • 在配置静态节点时,如果集群状态更改为 PROTECTED,则集群创建将失败。

更改:

  • 升级到 Slurm 版本 22.05.8(从版本 22.05.7)。

  • 将EFA安装程序升级到1.21.0

    • Efa-driver:efa-2.1.1-1(从 efa-2.1

    • Efa-config:efa-config-1.12-1(从 efa-config-1.11-1)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.1amzn3.0-1(从 libfabric-aws-1.16.1

    • Rdma-core:rdma-core-43.0-1(从 rdma-core-43.0-2

    • 打开MPI:openmpi40-aws-4.1.4-3(无变化)

  • 使 Slurm 控制器日志更加详尽,并为 Slurm 节能插件启用额外的日志记录。

错误修复:

  • 在启用 Slurm 会计的情况下,通过验证集群名称是否不超过 40 个字符,修复了集群数据库创建问题。

  • 修复了在 clustermgtd Amazon EC2 实例状态检查失败时导致通过Slurm重启的计算节点被替换的问题。

  • 修复了由于头节点上的IAM策略不正确而导致其他账户共享容量预留的计算节点无法启动的问题。

有关更改的详细信息,请参阅上的 aws-parallelclusteraws-parallelcluster-cookbookaws-parallelcluster-node、和软件包的CHANGELOG文件。aws-parallelcluster-ui GitHub

2023 年 2 月 20 日

AWS ParallelCluster 3.4.1 版本已发布

AWS ParallelCluster 3.4.1 版本已发布。

错误修复:

  • 修复了可能导致对计算节点的内部注册表不正确地应用更新的 Slurm 调度器问题。因此,如果出现此问题,EC2实例可能会变得不可用,或者可能由不正确的实例类型提供支持。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2023 年 1 月 13 日

AWS ParallelCluster 3.4.0 版本已发布

AWS ParallelCluster 3.4.0 版本已发布。

增强功能:

  • 添加了对跨多个可用区启动节点的支持,以提高容量可用性。

  • 添加了对为每个队列指定多个子网的支持,以提高容量可用性。

  • Iam/中添加新的配置参数 ResourcePrefix,以指定由创建的IAM资源的路径和名称的前缀 AWS ParallelCluster。

  • 添加新的配置部分 DeploymentSettings/,LambdaFunctionsVpcConfig用于指定 AWS ParallelCluster Lambda 函数使用的 Vpc 配置。

  • 添加了指定要在集群更新期间在头节点中运行的自定义脚本的功能。当使用 Slurm 作为调度器时,可以使用 HeadNode/CustomActions/OnNodeUpdated 来指定脚本。

更改:

  • 删除为现有文件系统创建的 Amazon EFS 挂载目标。

  • 使用挂载EFS文件系统amazon-efs-utils。EFS可以使用传输中加密和IAM授权用户来装载文件系统。

  • 在 Cent OS7 和 Ubuntu 上安装 stunnel 5.67 以支持传输中加密。EFS

  • 将EFA安装程序升级到1.20.0(从1.18.0)。

    • Efa-driver:efa-2.1(从 efa-1.16.0-1

    • Efa-config:efa-config-1.11-1(无变化)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.1(从 libfabric-aws-1.16.0~amzn4.0-1

    • Rdma-core:rdma-core-43.0-2(从 rdma-core-41.0-2

    • 打开MPI:openmpi40-aws-4.1.4-3来自 (openmpi40-aws-4.1.4-2)

  • 将 Slurm 升级到版本 22.05.7(从 22.05.5)。

  • 将 Python 升级到 3.9.163.7.16(从 3.9.153.7.13)。

  • 使用 Slurm 22.05.7,处于 IDLE+CLOUD+COMPLETING+POWER_DOWN+NOT_RESPONDING 状态的动态节点不会被视为运行状况不佳。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 12 月 22 日

AWS ParallelCluster 3.3.1 版本已发布

AWS ParallelCluster 3.3.1 版本已发布。

更改:

  • AMIs在亚马逊EC2弃用两年后,官方 AWS ParallelCluster 产品现已上市。

  • 将 AWS ParallelCluster API Lambda 的内存大小增加到 2048,以减少冷启动惩罚并避免超时。

错误修复:

  • 防止替换托管FSx的 Lustre 文件系统以及包括计算队列子网 ID 更改在内的集群更新数据丢失。

  • SharedStorage DeletionPolicy 适用于集群更新操作。

有关更改的详细信息,请参阅上的 aws-parallel cluster 软件包CHANGELOG文件。 GitHub

2022 年 12 月 2 日

AWS ParallelCluster 仅限文档 hpc6id 注意

AWS ParallelCluster 仅限文档的更新

2022 年 12 月 2 日

AWS ParallelCluster 3.1.5 版本已发布

AWS ParallelCluster 3.1.5 版本已发布。

增强功能:

  • Slurm修复了阻止空闲节点终止的问题。

  • 将EFA安装程序升级到 1.18.0

    • Efa-driver:efa-1.16.0-1

    • Efa-config:efa-config-1.11-1(从 efa-config-1.9-1

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.0~amzn4.0-1(从 libfabric-1.13.2

    • Rdma-core:rdma-core-41.0-2(从 rdma-core-37.0

    • 打开MPI:openmpi40-aws-4.1.4-2(来自openmpi40-aws-4.1.1-2

更改:

  • lambda:ListTagslambda:UntagResource添加到 AWS ParallelCluster API堆栈ParallelClusterUserRole用于集群更新的中。

  • 将英特尔MPI库升级到 2021 版更新 6(从 2021 版更新 4 开始)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 6

  • 将NVIDIA驱动程序升级到版本 470.141.03(从 470.103.01 开始)。

  • 将 NVIDIA Fabric Manager 升级到版本 470.141.03(从 470.103.01 开始)。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 11 月 16 日

AWS ParallelCluster 3.3.0 版本已发布

AWS ParallelCluster 3.3.0 版本已发布。

增强功能:

  • 当使用 Slurm 作为调度器时,添加了对计算资源的多实例分配配置的支持。有关更多信息,请参阅 Slurm 的多实例类型分配

  • 添加了对使用更新配置进行集群更新时添加和删除 SharedStorage 的支持。有关更多信息,请参阅 共享存储

  • EfsFsxLustre 共享存储设置添加了新的配置参数以支持存储保留。

  • 通过新配置参数 Scheduling/SlurmSettings/Database,添加了对 Slurm 会计的支持。有关更多信息,请参阅 Slurm会计 AWS ParallelCluster

  • 添加对按需容量预留 (ODCR) 和容量预留资源组的支持。有关更多信息,请参阅 使用按需容量预留 (ODCR) 启动实例

  • 添加新的配置参数以指定集群中要支持的IMDS版本或在集群中构建映像基础架构ImdsSupportImds/和 build、Imds/ImdsSupport、配置。

  • SlurmQueues/ComputeResources 部分中添加了对 Networking/PlacementGroup 的支持。

  • 添加对具有多个网络接口且ENI每台设备仅限一个网络接口的实例的支持。

  • 通过检查附加的安全组中的CIDR封锁,改进对外部 Amazon EFS 文件系统的网络验证。

  • 添加了用于检查配置的实例类型是否支持置放群组的验证器。

  • 将NFS线程配置为最小值(256,最大(8,num_cores * 4)),以确保更好的稳定性和性能。

  • 在构建时移动NFS安装以减少配置时间。

  • 为部署 AWS ParallelCluster API时创建的 EcrImageBuilder SNS主题启用服务器端加密,该主题用于通知 docker 镜像构建事件。

更改:

  • 更改了 SlurmQueues/Networking/PlacementGroup/Enabled 的行为。现在,它会为每个计算资源创建一个唯一的托管置放群组,而不是为所有计算资源创建一个托管置放群组。

  • 添加了对 SlurmQueues/Networking/PlacementGroup/Name 作为首选命名方法的支持。

  • 将头节点标签从启动模板移动到了实例定义中,以避免在标签更新时替换头节点。

  • 通过 cloud-init 执行的脚本而不是通过启动模板中设置的 CpuOptions 禁用多线程处理。

  • 在基础架构、Docker 容器和集群 Lambda 资源中API将 Python 升级到版本 3.9API,将 NodeJS 升级到版本 16。

  • aws-parallelcluster-batch-cli 中删除了对 Python 3.6 的支持。

  • 将 Slurm 升级到版本 22.05.5(从 21.08.8-2)。

  • 将NVIDIA驱动程序升级到版本470.141.03(从470.129.06)。

  • 将 NVIDIA Fabric Manager 升级到版本470.141.03(从470.129.06)。

  • 将NVIDIACUDA工具包升级到版本 11.7.1 (from 11.4.4)。

  • 将 v AWS ParallelCluster irtualenvs 中使用的 Python 从3.7.13升级到。3.9.15

  • 将EFA安装程序升级到 1.18.0 版。

    • Efa-driver:efa-1.16.0-1(无变化)

    • Efa-config:efa-config-1.11-1from efa-config-1.10-1

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.0~amzn4.0-1(从 libfabric-aws-1.16.0~amzn2.0-1

    • Rdma-core:rdma-core-41.0-2(从 rdma-core-37.0

    • 打开MPI:openmpi40-aws-4.1.4-2(来自openmpi40-aws-4.1.1-2

  • 升级NICEDCV到版本2022.1-13300(从2022.0-12760)。

  • Queues 启用 SingleSubnetValidator 抑制。

  • 当节点处于 COMPLETING 状态时不替换 DRAIN 节点,因为 Epilog 可能仍在运行。

错误修复:

  • 修复了 AWS ParallelCluster ListClusterLogStreams命令中过滤器参数的验证失败的问题,即当传递的过滤器不正确时。

  • 修复了与EfsSettings其他 SharedStorageSharedStorage/参数一起指定FileSystemId时无法验证EfsSettings参数/的问题。以前不包括 FileSystemId

  • 修复了在配置中更改 SharedStorage 的顺序以及进行其他更改时的集群更新问题。

  • 修复UpdateParallelClusterLambdaRole了 AWS ParallelCluster API要将日志上传到的内容 CloudWatch。

  • 修复了在执行任何说明书之前安装程序包时 Cinc 不使用本地 CA 证书捆绑包的问题。

  • 修复了在设置 Build:UpdateOsPackages:Enabled:true 后使用 pcluster build-image 升级 ubuntu 时出现的挂起问题。

  • 修复了由于密钥重复失败而导致的YAML集群配置解析问题。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 11 月 2 日

AWS ParallelCluster 添加了仅限文档的API参考。

AWS ParallelCluster 仅限文档的更新

2022 年 10 月 27 日

AWS ParallelCluster 3.2.1 版本已发布

AWS ParallelCluster 3.2.1 版本已发布。

增强功能:

  • 改进逻辑,将主机路由表关联到不同的网卡,从而更好地支持带有多个网卡的 Amazon EC2 实例NICs。

更改:

  • 将NVIDIA驱动程序升级到版本 470.141.03。

  • 将 NVIDIA Fabric Manager 升级到版本 470.141.03。

  • 禁用可能对节点性能产生负面影响的 cron 作业任务 man-dbmlocate

  • 将英特尔MPI库升级到 2021.6.0.602。

  • 将 Python 从 3.7.10 升级到 3.7.13 以应对这种安全风险。

错误修复:

  • 避免集群配置不可用时 DescribeCluster 失败。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 10 月 3 日

AWS ParallelCluster 3.2.0 版本已发布

AWS ParallelCluster 3.2.0 版本已发布。

增强功能:

更改:

  • 将EFA安装程序升级到版本 1.17.2。

    • EFA司机:efa-1.16.0-1

    • EFA配置:efa-config-1.10-1

    • EFA个人资料:efa-profile-1.5-1

    • Libfabric:libfabric-aws-1.16.0~amzn2.0-1

    • RDMA核心:rdma-core-41.0-2

    • 打开MPI:openmpi40-aws-4.1.4-2

  • 升级NICEDCV到 2022.0-12760 版本。

  • 将NVIDIA驱动程序升级到版本 470.129.06。

  • 将 NVIDIA Fabric Manager 升级到版本 470.129.06。

  • 将根EBS卷和其他卷中的默认卷类型从 gp2 更改为 gp3。

  • 对FSx于 Lustre 文件系统的更改由以下人员创建: AWS ParallelCluster

    • 将默认部署类型更改为 Scratch_2

    • 将 Lustre 服务器版本更改为 2.12

  • 传递现有的 PlacementGroup/Id 时不需要将 PlacementGroup/Enabled 设置为 true

  • PlacementGroup/Enabled 显式设置为 false 时,不允许设置 PlacementGroup/Id

  • 为 AWS ParallelCluster创建的所有资源添加标签 parallelcluster:cluster-name

  • 添加lambda:ListTagslambda:UntagResource,供 AWS ParallelCluster API堆栈ParallelClusterUserRole用于集群更新。

  • 启用配置参数HeadNode/Imds/Secured后,仅限根用户和集群管理员用户IPv6访问权限。IMDS

  • 对于自定义AMI,请使用AMI根卷大小,而不是 ParallelCluster默认的 35 GiB。可以在集群配置文件中更改该值。

  • 当配置参数 Scheduling/SlurmQueues/ComputeResources/SpotPrice 低于所需的最低竞价型请求履行价格时,自动禁用计算实例集。

  • 在更新期间添加或删除某个部分时,在更改集中显示 requested_valuecurrent_value 值。

  • 禁用深度学习中提供的aws-ubuntu-eni-helper服务AMIs,以避免在配置具有多个网卡的实例configure_nw_interface.sh时发生冲突。

  • 删除了对 Python 3.6 的支持。

  • MTU使用多个网卡配置实例时,所有网络接口均设置为 9001。

  • 配置计算节点时,删除尾随的圆点FQDN。

  • POWERING_DOWN 中管理静态节点。

  • 不替换 POWER_DOWN 中的动态节点,因为作业可能仍在运行。

  • 只有在更新了集群配置中的 Scheduling 参数时,才会在集群更新时重启 clustermgtdslurmctld 进程守护程序。

  • 更新 slurmctldslurmd systemd 服务文件。

  • 启用配置参数HeadNode/Imds/Secured后,仅限根用户和集群管理员用户IPv6访问权限。IMDS

  • 设置Slurm配置AuthInfo=cred_expire=70以缩短在节点不可用时重新排队的任务在重新启动之前必须等待的时间。

  • 升级第三方说明书依赖项:

    • apt-7.4.2(从 apt-7.4.0)

    • line-4.5.2(从 line-4.0.1)

    • openssh-2.10.3(从 openssh-2.9.1)

    • pyenv-3.5.1(从 pyenv-3.4.2)

    • selinux-6.0.4(从 selinux-3.1.1)

    • yum-7.4.0(从 yum-6.1.1)

    • yum-epel-4.5.0(从 yum-epel-4.1.2)

错误修复:

  • 修复默认行为,以便在构建自定义时跳过 AWS ParallelCluster 验证和测试步骤AMI。

  • 修复了 computemgtd 中的文件句柄泄漏问题。

  • 修复了由于响应中尚不可用而偶尔导致已启动的实例立即终止的争用条件。EC2 DescribeInstances

  • 对于使用 Arm 处理器的实例类型,修复了对 DisableSimultaneousMultithreading 参数的支持。

  • 修复从先前版本升级时 AWS ParallelCluster API堆栈更新失败的问题。在 EcrImageDeletionLambdaRole 中添加了用于 ListImagePipelineImages 操作的资源模式。

  • 修复了在创建 for Lustre 文件系统时 AWS ParallelCluster API添加从 Amazon S3 导入或导出所需的缺少权限的问题。FSx

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 7 月 27 日

AWS ParallelCluster 今年迄今为止仅限文档的更新

AWS ParallelCluster 仅限文档的更新。

2022 年 7 月 6 日

AWS ParallelCluster 3.1.4 版本已发布

AWS ParallelCluster 3.1.4 版本已发布。

增强功能:

更改:

  • 升级Slurm到 21.08.8-2 版本。

  • 在JWT支持Slurm下构建。

  • 传递现有的 PlacementGroup/Id 时不需要将 PlacementGroup/Enabled 设置为 true

  • lambda:TagResource添加到 ParallelCluster API堆栈ParallelClusterUserRole中用于创建集群和创建映像。

错误修复:

  • 修复了使用带 --filters 选项的 export-cluster-logs 命令时导出集群日志的功能。

  • 修复 AWS Batch Docker 入口点以使用/home共享目录来协调多节点并行作业执行。

  • 将运行Slurm状况不佳的静态节点设置为关闭时重置节点地址,以避免将容量不足的静态节点视为引导失败节点。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 5 月 16 日

AWS ParallelCluster 3.1.3 版本已发布

AWS ParallelCluster 3.1.3 版本已发布。

增强功能:

  • 在创建HOME目录的同时执行SSH密钥创建,例如,在SSH登录期间、切换到其他用户以及以其他用户身份执行命令时。

  • 在配置参数 DirectoryService/中添加对两者FQDN以及可LDAP分辨名称的支持DomainName。新验证器现在会检查这两种语法。

  • 部署在头节点上的新update_directory_service_password.sh脚本支持手动更新SSSD配置中的 Active Directory 密码。密码由 a AWS Secrets Manager s 从集群配置中检索。

  • 添加对在没有默认设置的环境中部署API基础架构的支持VPC。

更改:

  • 在 x86_64 官方版本中禁用更深层次的 C 状态,AMIs并通过build-image命令AMIs创建,以保证高性能和低延迟。

  • 操作系统程序包更新和安全修复。

  • 将 Amazon Linux 2 基础映像更改为AMIs与内核 5.10 配合使用。

错误修复:

  • 由于新的 Image Builder 政策,在成功构建映像DELETE_FAILED后修复构建EC2映像堆栈。

  • 修复配置参数 DirectoryService/DomainAddr转换为 ldap_uri SSSD 属性时该属性包含多个域名地址。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbook GitHub

2022 年 4 月 20 日

AWS ParallelCluster 3.1.2 版本已发布

AWS ParallelCluster 3.1.2 版本已发布。

更改:

  • 将 Slurm 升级到版本 21.08.6(从 21.08.5)。

错误修复:

  • 修复了在没有互联网访问权限的子网中部署集群时在计算节点上更新 /etc/hosts 文件的问题。

  • 修复了计算节点引导,在加入集群之前将等待临时驱动器初始化完成。

有关更改的详细信息,请参阅上的 aws-parallel cluster 软件包的CHANGELOG文件。 GitHub

2022 年 3 月 2 日

AWS ParallelCluster 3.1.1 版本已发布

AWS ParallelCluster 3.1.1 版本已发布。

  • 通过与通过 AWS Directory Service托管的 Active Directory (AD) 域集成,添加了对多用户集群环境的支持。

  • 在集群配置文件中添加了对 UseEc2Hostnames 的支持。设置为 true 时,请使用亚马逊的EC2默认主机名(例如 ip-1-2-3-4)作为计算节点。

  • 添加了对在没有互联网访问权限的子网中创建集群的支持。

  • 添加了对每个队列包含多种计算实例类型的支持。

  • 添加对使用NVIDIA卡片的ARM实例Slurm进行GPU调度的支持。

  • 将 ()、cluster-name (-n)、region (-r) 和cluster-configuration/image-idimage-configuration(-i-c) 的缩写标志添加到中。 AWS ParallelCluster CLI

  • 添加对 Lustre AutoImportPolicy参数NEW_CHANGED_DELETED选项FSx的支持。

  • 为计算节点使用的EC2LaunchTemplates资源添加parallelcluster:compute-resource-name标签。

  • 改进了在集群中创建的安全组,在为某些头节点和/或队列指定 SecurityGroups 参数的情况下,允许来自自定义安全组的入站连接。

  • 为安装NVIDIA驱动程序和CUDA库ARM。

更改:

  • 将 Slurm 升级到版本 21.08.5(从 20.11.8)。

  • 将Slurm插件升级到版本21.08(从20.11)。

  • 升级NICEDCV到版本2021.3-11591(从2021.1-10851)。

  • 将NVIDIA驱动程序升级到版本470.103.01(从470.57.02)。

  • 将NVIDIA结构管理器升级到版本470.103.01(从470.57.02)。

  • 将 CUDA 升级到版本 11.4.4(从 11.4.0)。

  • 英特尔MPI已更新至 2021 版更新 4(从 2019 年版本更新 8 更新)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 4

  • 将 PMIx 升级到版本 3.2.3(从 3.1.5)。

  • 删除了将失败的计算节点转储到 /home/logs/compute。计算节点日志文件在 Amazon EC2 控制台日志 CloudWatch 和控制台日志中均可用。

  • 启用潜在抑制 SlurmQueuesComputeResources 长度验证器。

  • 在 Amazon Linux 2 上禁用实例启动时的程序包更新。

  • 在构建 AWS ParallelCluster 自定义图像时禁用 Amazon EC2 ImageBuilder 增强版图像元数据。

  • cloud-init数据源明确设置为。EC2这可节省 Ubuntu 和 CentOS 平台的启动时间。

  • 在计算实例集启动模板名称中使用计算资源名称而不是实例类型。

  • 将 stderr 和 stdout 重定向到CLI日志文件,以防止 pcluster 输出中出现不需要的文本。CLI

  • 将配置/安装食谱移动到从主程序调用的单独说明书中。现有的入口点保持不变,并且向后兼容。

  • 在AMI构建期间下载英特尔HPC平台的依赖关系,以避免在集群创建期间联系互联网。

  • 配置 Slurm 节点时不从计算资源名称中删除 -

  • 未安装NVIDIA驱动程序Slurm时GPUs,请勿在中进行配置。

  • 修复了 BatchUserRole 中的 ecs:ListContainerInstances 权限。

  • 修复了未指定前缀时的集群日志导出问题,以前导出为 None 前缀。

  • 修复了集群更新失败时不执行回滚的问题。

  • 修复了 BatchUserRole 中的 ecs:ListContainerInstances 权限。

  • 修复了 HeadNodeRootVolume 架构,如果指定了不支持的 KmsKeyId,则会引发错误。

  • 修复 Amazon FSx 缺少要在 CloudWatch 控制面板中显示的指标。

  • 修复了 EfaSecurityGroupValidator。以前,当提供并启用自定义安全组时,可能会产生错误的EFA故障。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 2 月 10 日

AWS ParallelCluster 3.0.3 版本已发布

AWS ParallelCluster 3.0.3 版本已发布。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbook GitHub

2022 年 1 月 17 日

AWS ParallelCluster 3.0.2 版本已发布

AWS ParallelCluster 3.0.2 版本已发布。

Elastic Fabric Adapter 安装程序升级到 1.14.1

  • EFA配置:efa-config-1.9-1(来自efa-config-1.9

  • EFA个人资料:efa-profile-1.5-1(来自efa-profile-1.5

  • EFA内核模块:efa-1.14.2(来自efa-1.13.0

  • RDMA核心:rdma-core-37.0(来自rdma-core-35

  • libfabric:libfabric-1.13.2(从 libfabric-1.13.0

  • 打开MPI:openmpi40-aws-4.1.1-2(无变化)

GPUDirectRDMA如果实例类型支持,则始终处于启用状态。GdrSupport配置选项无效。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub

2021 年 11 月 5 日

AWS ParallelCluster 3.0.1 版本已发布

AWS ParallelCluster 3.0.1 版本已发布。

集群配置迁移工具

  • 客户现在可以将其集群配置从 AWS ParallelCluster 版本 2 格式迁移到YAML基于 AWS ParallelCluster 版本 3 的格式。有关更多信息,请参阅 pcluster3-config-converter

可以停止头节点

  • 停止计算队列后,可以使用 Amazon EC2 控制台或 stop- AWS CLI instances 命令停止头节点,然后再重新启动。

默认从~/.aws/config文件 AWS 区域 读取

  • 对于该pcluster命令,如果未在配置文件、环境或命令行中指定,则使用~/.aws/config文件[default]部分的region设置中 AWS 区域 指定的默认值。 AWS 区域

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub

2021 年 10 月 27 日

AWS ParallelCluster 3.0.0 版本已发布

AWS ParallelCluster 3.0.0 版本已发布。

支持通过 Amazon API Gateway 进行集群管理

  • 现在,客户可以通过 Amazon API Gateway 通过HTTP终端节点管理和部署集群。这为脚本化或事件驱动的工作流程开辟了新的可能性。

    为了与之兼容,还重新设计了 AWS ParallelCluster 命令行界面 (CLI),API并包括一个新的JSON输出选项。这项新功能使客户也可以使用来实现类似的CLI构造块功能。

改进了自定义AMI创建

  • 现在,客户可以使用更强大的流程来AMIs使用 EC2 Image Builder 创建和管理自定义内容。现在AMIs可以通过单独的 AWS ParallelCluster 配置文件管理自定义,也可以在pcluster build-image命令行界面中使用 AWS ParallelCluster 命令创建。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub

2021 年 9 月 10 日