变更 | 说明 | 日期 |
---|
AWS ParallelCluster 用户界面版本 2024.07.1 已发布 | 我们很高兴地宣布发布 AWS ParallelCluster 用户界面版本 2024.07.1。 更改: 错误修复: 安全性: 查看完整的更新日志。 | 2024 年 7 月 24 日 |
AWS ParallelCluster 3.10.1 版本已发布 | 我们很高兴地宣布 AWS ParallelCluster 3.10.1 已发布。 错误修复: | 2024年7月8日 |
AWS ParallelCluster 用户界面版本 2024.07.0 已发布 | 我们很高兴地宣布 AWS ParallelCluster UI 版本 2024.07.0 已发布。 功能: | 2024 年 7 月 2 日 |
AWS ParallelCluster 3.10.0 版本已发布 | 我们很高兴地宣布 AWS ParallelCluster 3.10.0 已发布 要升级,请键入sudo pip install --upgrade aws-parallelcluster 。 增强功能: 更改:
-
不再支持 CentOS 7。
-
将 Cinc Client 从 18.2.7 升级到 18.4.12 版本。
-
将 munge 升级到版本 0.5.16(从 0.5.15 开始)。
-
将 Pmix 升级到 5.0.2(从 4.2.9 开始)。
-
升级第三方说明书依赖项:
-
移除第三方食谱:selinux-6.1.12。
-
将EFA安装程序升级到1.32.0 。
-
将NVIDIA驱动程序升级到版本 535.183.01(从 535.154.05 开始)。
-
将 Python 升级到 3.9.19(从 3.9.17 开始)。
-
将英特尔MPI库升级到 2021.12.1.8(从 2021.9.0.43482 起)。
错误修复:
-
将数据存储库关联配置修复为AutoExportPolicy 可AutoImportPolicy 选配置。
-
修复了集群删除期间的一个问题,该问题现在可以在实例处于关闭或终止状态时完成计算队列清理。这是为了避免终止周期较长的实例类型的集群删除失败。
-
允许在集群配置Monitoring 部分启用 cloudwatch 控制面板并禁用警报。
-
允许 ParallelCluster 自定义资源使用禁止验证器。PclusterCluster/SuppressValidators
-
已删除,/etc/profile.d/pcluster.sh 因此它不会在每次用户登录时执行,也cfn_bootstrap_virtualenv 不会添加到PATH环境变量中。
-
通过将字段替换为DescribeCluster 作为响应failureReason 来failures 修复ParallelCluster API规范。
-
通过添加缺失的 CloudFormation 堆栈状态来修复ParallelCluster API规范:IMPORT_* REVIEW_IN_PROGRESS 、和UPDATE_FAILED 。
-
修复了阻止集群更新包含传输中加密EFS的文件系统的问题。
-
修复了在用于共享内部数据时 slurmctld 和 slurmdbd 服务在头节点重启时无法重新启动的问题。EFS
-
在 Ubuntu 系统上,删除与来自 Parallelcluster 的配置冲突的 cloud-init 日志文件的默认 logrotate 配置。
-
修复 RHEL 8.10 或更高版本的映像构建失败。
| 2024 年 6 月 27 日 |
1.0.0 的 Terraform Provider 已发布 AWS ParallelCluster | 我们很高兴地宣布推出适用于 1.0.0 的 Terraform Provider。 AWS ParallelCluster 功能: | 2024 年 6 月 26 日 |
1.0.0 版的 Terraform 模块已发布 AWS ParallelCluster | 我们很高兴地宣布发布适用于 1.0.0 的 Terraform Module。 AWS ParallelCluster 功能: | 2024 年 6 月 26 日 |
AWS ParallelCluster 3.9.3 版本已发布 | 我们很高兴地宣布 AWS ParallelCluster 3.9.3 已发布 要升级,请键入 sudo pip install --upgrade aws-parallelcluster 功能: 错误修复: | 2024年6月19日 |
AWS ParallelCluster 3.9.2 版本已发布 | 我们很高兴地宣布 AWS ParallelCluster 3.9.2 已发布 功能: | 2024 年 5 月 28 日 |
AWS ParallelCluster 用户界面版本 2024.05.0 已发布 | AWS ParallelCluster 用户界面版本 2024.05.0 已发布。 | 2024 年 5 月 14 日 |
AWS ParallelCluster 用户界面版本 2024.04.0 已发布 | AWS ParallelCluster 用户界面版本 2024.04.0 已发布。 | 2024 年 4 月 17 日 |
AWS ParallelCluster 3.9.1 版本已发布 | 我们很高兴地宣布 AWS ParallelCluster 3.9.1 已发布 要升级,请输入以下内容:sudo pip install --upgrade
aws-parallelcluster 错误修复 | 2024 年 4 月 11 日 |
AWS ParallelCluster 3.9.1 版本已发布 | 我们很高兴地宣布 AWS ParallelCluster 3.9.1 已发布 要升级,请输入以下内容:sudo pip install --upgrade
aws-parallelcluster 错误修复 | 2024 年 4 月 11 日 |
AWS ParallelCluster 用户界面版本 2024.03.0 已发布 | AWS ParallelCluster 用户界面版本 2024.03.0 已发布。 有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui 软件包的CHANGELOG 文件 GitHub。 | 2024 年 3 月 12 日 |
AWS ParallelCluster 3.9.0 版本已发布 | 我们很高兴地宣布 AWS ParallelCluster 3.9.0 已发布
要升级,请输入以下内容:sudo pip install --upgrade
aws-parallelcluster
增强功能:
-
添加配置参数DeploymentSettings/DefaultUserHome 以允许用户将默认用户的主目录移到/local/home 而不是/home (默认)。
-
无需停止计算队列即可更新MinCount MaxCount 、Queue 和ComputeResource 配置参数。现在可以通过将设置Scheduling/SlurmSettings/QueueUpdateStrategy 为来更新它们TERMINATE。 AWS ParallelCluster 将仅终止在通过群集更新调整群集容量时移除的节点。
-
允许在 FileCache 不替换计算和登录队列的情况下更新 Efs FsxLustre FsxOntap、、 FsxOpenZfs 和类型的外部共享存储。
-
添加对的支持RHEL9。
-
添加对通过build-image 流程CustomAmi 创建的 Rocky Linux 9 的支持。目前还没有官方的 AWS ParallelCluster Rocky9 AMI Linux 可用。
-
CommunicationParameters 从 Slurm “自定义设置” 拒绝列表中删除。
-
在支持OSes中添加DeploymentSettings/DisableSudoAccessForDefaultUser 参数以禁用默认用户的 sudo 访问权限。
-
对FSx于 Lustre 文件系统的更改由 ParallelCluster以下人员创建:将 Lustre 服务器版本更改为 2.15.
-
通过['cluster']['nvidia']['kernel_open'] 食谱节点属性在构建 Nvidia 驱动程序时AMI,增加了在开源和闭源 Nvidia 驱动程序之间进行选择的可能性。
-
* 添加 clustermgtd 配置选项ec2_instance_missing_max_count 以允许可配置的重试次数,以实现最终的 A EC2 mazon 描述实例与运行的实例保持一致。
更改
-
升级Slurm到 23.11.4(从 23.02.7 开始)。
-
将NVIDIA驱动程序升级到版本 535.154.05。
-
在 pc CLI luster 中添加对 Python 3.11、3.12 的支持,以及。 aws-parallelcluster-batch-cli
-
使用 Amazon EC2 DescribeInstances 响应NetworkCardIndex 列表中的网卡索引构建网络接口,而不是遍历MaximumNetworkCards 范围。
-
使用实例类型 P3、G3、P2 和 G2 时,集群创建失败,因为它们的GPU架构与 3.8.0 版本中引入的开源 Nvidia 驱动程序 (OpenRM) 不兼容。
-
升级第三方食谱依赖项:nfs-5.1.2(从 nfs-5.0.0 开始)
-
将EFA安装程序升级到 1.30.0.
-
升级NICEDCV到版本 2023.1-16388.
错误修复
-
修复了从登录节点以 Active Directory 用户身份提交任务时任务失败的问题。该问题是由头节点上与外部 Active Directory 集成的配置不完整引起的。
-
重构在 CloudFormation 模板 parallelclusser-policies.yaml 中定义的IAM策略,以防止由于策略超出限制而导致部署失败。 ParallelCluster API IAM
-
修复了当头节点写入密钥所需的时间超过预期时间时,登录节点无法启动的问题。
有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG 文件 GitHub。 | 2024 年 3 月 5 日 |
AWS ParallelCluster 用户界面版本 2024.02.0 已发布 | AWS ParallelCluster 用户界面版本 2024.02.0 已发布 更改: 有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui 软件包的CHANGELOG 文件 GitHub。 | 2024 年 2 月 8 日 |
AWS ParallelCluster 用户界面版本 2023.12.0 已发布 | AWS ParallelCluster 用户界面版本 2023.12.0 已发布。
功能:
-
增加了对使用私有网络进行PCUI部署的支持。
-
增加了可选地将权限边界应用于PCUI和PCAPI基础架构创建的每个IAM角色的可能性
-
增加了可选地为和PCAPI基础架构创建的每个IAM角色和策略应用前缀的可能性。PCUI
-
增加了对 ParallelCluster 版本 3.8.0 的支持,向导中没有功能对等。
有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG 文件 GitHub。 | 2023 年 12 月 21 日 |
AWS ParallelCluster 3.8.0 版本已发布 | AWS ParallelCluster 3.8.0 版本已发布。
增强功能:
-
添加对 Amazon 机器学习EC2容量块的支持。
-
添加对通过build-image 流程CustomAmi 创建的 Rocky Linux 8 的支持。目前还没有官方的 AWS ParallelCluster Rocky8 AMI Linux 可用。
-
添加Scheduling/ScalingStrategy 参数以控制为Slurm计算节点启动 Amazon EC2 实例时要使用的集群扩展策略。可能的值为all-or-nothing 、greedy-all-or-nothing 、best-effort 、,且all-or-nothing 为默认值。
-
添加HeadNode/SharedStorageType 参数以使用EFS存储而不是从头节点根卷NFS导出的集群内共享文件系统资源:Intel ParallelCluster、Slurm 和数据。/home 此增强功能减少了头节点网络的负载。
-
允许通过配置文件的SharedStorage 部分/home 作为EFS或FSx外部共享存储进行安装。
-
添加新参数SlurmSettings/MungeKeySecretArn 以允许使用 Secrets Manager 中用户定义的外部 AWS 密MUNGE钥。
-
添加Monitoring/Alarms/Enabled 参数以切换集群的 Amazon CloudWatch 警报。
-
添加头节点警报以监控 Amazon 运行EC2状况检查、CPU利用率和头节点的整体状态,并将其添加到使用集群创建的 CloudWatch 控制面板中。
-
将 as 用于托管 Lustre 时PERSISTENT_2 ,添加DeploymentType 对数据存储库关联FSx的支持。
-
添加Scheduling/SlurmSettings/Database/DatabaseName 参数以允许用户为数据库服务器上用于Slurm记账的数据库指定自定义名称。
-
在计算资源CapacityReservationTarget/CapacityReservationId 中InstanceType 进行配置时,请创建一个可选的配置参数。
-
增加了为由创建的IAM角色和策略指定前缀的可能性 AWS ParallelCluster API。
-
增加了为所创建的IAM角色和策略指定要应用的权限边界的可能性 AWS ParallelCluster API。
更改
-
升级Slurm到 23.02.7(从 23.02.6 开始)。
-
将NVIDIA驱动程序升级到版本 535.129.03。
-
将CUDA工具包升级到版本 12.2.2。
-
使用开源NVIDIAGPU驱动程序 (OpenRM) 作为 Linux 的NVIDIA内核模块,而不是NVIDIA闭源模块。
-
取消对Slurm恢复程序中all_or_nothing_batch 配置参数的支持,转而使用新的Scheduling/ScalingStrategy 群集配置。
-
将集群警报命名约定更改为 “[集群名称]-[组件名称]-[指标]”。
-
将根EBS卷和其他卷的ADC区域中的默认卷类型从 gp2 更改为 gp3。
-
的可选权限边界现已应用于API基础架构创建的每个IAM角色。 AWS ParallelCluster API
-
除了使用 2.3.1 版本的 Centos 7 之外OSes,所有支持版本都升级GDRCopy到 2.4 版。
-
升级aws-cfn-bootstrap 到 2.0-28 版本。
-
在中添加对 Python 3.10 的 aws-parallelcluster-batch-cli支持。
错误修复
-
修复修改计算资源中声明的实例类型列表时,集群更新回滚后扩展配置不一致的问题。
-
修复通过集群配置文件在与外部LDAP服务器集成的集群中切换没有 root 权限的用户时生成用户SSH密钥的问题。
-
修复了设置时禁用省Slurm电模式的问题ScaledownIdletime =
-1 。
-
修复Slurm会计update_slurm_database_password.sh 脚本中Slurm安装目录的硬编码路径。
| 2023 年 12 月 19 日 |
AWS ParallelCluster 3.7.2 版本已发布 | AWS ParallelCluster 3.7.2 版本已发布。
| 2023 年 10 月 25 日 |
AWS ParallelCluster 用户界面版本 2023.10.0 已发布 | AWS ParallelCluster 用户界面版本 2023.10.0 已发布。
有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG 文件 GitHub。 | 2023 年 10 月 20 日 |
AWS ParallelCluster 3.7.1 版本已发布 | AWS ParallelCluster 3.7.1 版本已发布。
更改:
-
升级Slurm到 23.02.5(从 23.02.4 开始)。
-
将EFA安装程序升级到1.26.1 ,修复 P5 中的RDMA写入数据问题。
-
EFA 司机:。efa-2.5.0-1
-
EFA 配置:。efa-config-1.15-1
-
EFA 简介:。efa-profile-1.5-1
-
libfabric-aws:。libfabric-aws-1.18.2-1
-
ERdma-核心:rdma-core-46.0-1 。
-
打开MPI:openmpi40-aws-4.1.5-4 。
| 2023 年 9 月 22 日 |
AWS ParallelCluster 3.7.0 版本已发布 | AWS ParallelCluster 3.7.0 版本已发布。
增强功能:
-
Support 使用配置YAML文件在计算资源中 AWS ParallelCluster 配置静态和动态节点优先级。
-
添加了对 Ubuntu 22 的支持。RSA默认情况下不支持密钥。
-
添加了队列配置设置 JobExclusiveAllocation ,用于在任何给定时间在分区中以独占模式将节点分配给单个作业。
-
允许在创建集群和更新集群时覆盖aws-parallelcluster-node 软件包。对于头节点,这适用于集群更新。仅用于开发目的。
-
避免在计算节点上启动NFS服务器。
-
添加了对登录节点的支持。
-
当为Slurm计算资源指定了多种实例类型时,允许基于内存的调度。
-
添加了支持,允许将现有 Amazon 文件缓存作为共享存储进行挂载。
更改:
-
默认为 Slurm 动态节点分配 1000 的优先级(权重)。这样,Slurm 便可以将空闲静态节点设置为优先于空闲动态节点。
-
使aws-parallelcluster-node 守护程序仅处理 AWS ParallelCluster
托管Slurm分区。
-
将 EFS-utils 监视器轮询间隔增加到 10 秒。当 EncryptionInTransit 设置为 true 时(这是导致监视器运行的唯一条件),此更改适用。
-
将EFA安装程序升级到1.25.1 。
-
Efa-driver:efa-2.5.0-1 (从 efa-2.1.1g )
-
Efa-config:efa-config-1.15-1 (从 efa-config-1.13-1 )
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.18.1-0 (从 libfabric-aws-1.17.1-1 )
-
Rdma-core:rdma-core-46.0-1 (从 rdma-core-43.0-1 )
-
打开MPI:openmpi40-aws-4.1.5-4 (来自
openmpi40-aws-4.1.5-1 )
-
将 Slurm 升级到版本 23.02.4。
-
将 Imds/ 的默认值ImdsSupport 从 v1.0 更改为 v2.0。
-
弃用 Ubuntu 18。
-
将默认根卷大小更新为 40 GB,以补偿对 Centos 7 的限制。
-
限制头节点内文件 /tmp/wait_condition_handle.txt 的权限,只有根用户才能读取。
-
创建Slurm分区节点列表映射JSON文件,供节点包守护程序使用,识别由 PC 管理的分区和节点列表。Slurm
-
将NVIDIA驱动程序升级到版本 535.54.03。
-
将CUDA库升级到版本 12.2.0。
-
将NVIDIA结构管理器升级到 nvidia-fabricmanager-535。
-
仅适用于 Ubuntu 22.04 的 ARM PL 升级到 23.04.1 版。
-
升级NICEDCV到版本2023.0-15487 。
错误修复:
-
为 ScaledownIdletime 值添加验证功能,以防止设置的值低于 -1。
-
修复在已启用的GPU实例AMI上使用 Ubuntu 深度学习创建集群失败的问题DCV。
-
修复了使用创建 ParallelCluster CloudFormation 自定义资源提供程序时导致创建悬挂IAM策略的问题 CustomLambdaRole。
-
修复了使用SlurmSettings/Dns/UseEc2Hostnames 等于时导致具有多个网络接口的实例上的计算节点DNS名称不对齐的问题 True
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2023 年 8 月 30 日 |
仅文档发布 | AWS ParallelCluster 第 3 版特定用户指南已发布。
| 2023 年 7 月 17 日 |
AWS ParallelCluster 版本 3.6.1 已发布 | AWS ParallelCluster 3.6.1 版本已发布。
错误修复:
-
删除根卷设备名称(/dev/sda1 和/dev/xvda )的硬编码,然后从期间使用的中检索它create-cluster 。AMI
-
修复使用ElasticIp 设置为的 CloudFormation 自定义资源时集群创建失败的问题True 。
-
修复使用包含大型配置文件的 AWS CloudFormation 自定义资源时集群创建和更新失败的问题。
-
修复了无法在 Ubuntu 上禁用ptrace 保护且不允许在 libfabric 中使用跨内存附加 (CMA) 的问题。
-
修复了使用多个实例类型且未返回任何实例时的快速容量不足故障转移逻辑。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2023 年 7 月 5 日 |
AWS ParallelCluster 用户界面版本 2023.06.0 已发布 | AWS ParallelCluster 用户界面版本 2023.06.0 已发布。
有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG 文件 GitHub。 | 2023 年 6 月 7 日 |
AWS ParallelCluster 3.6.0 版本已发布 | AWS ParallelCluster 3.6.0 版本已发布。
更改:
-
将 Slurm 升级到版本 23.02.2 (从版本 22.05.8 )。
-
将 munge 升级到版本 0.5.15 (从版本 0.5.14 )。
-
将 Slurm TreeWidth 设置为 30。
-
将 Slurm prolog 和 epilog 配置分别设置为目标目录 /opt/slurm/etc/scripts/prolog.d/ 和 /opt/slurm/etc/scripts/epilog.d/ 。
-
将 Slurm BatchStartTimeout 设置为最长 3 分钟,以便在计算节点注册期间运行 Prolog 脚本。
-
将 CloudWatch 日志RetentionInDays 的默认值从 14 天增加到 180 天。
-
将EFA安装程序升级到1.22.1 。
-
Dkms:2.8.3-2
-
Efa-driver:efa-2.1.1g (无变化)
-
Efa-config:efa-config-1.13-1 (无变化)
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.17.1-1 (从 libfabric-aws-1.17.0-1 )
-
Rdma-core:rdma-core-43.0-1 (无变化)
-
打开MPI:openmpi40-aws-4.1.5-1 (无变化)
-
在 Amazon Linux 2 上将 Lustre 客户端版本升级到 2.12 。Lustre 客户端 2.12 已经安装在 Ubuntu 20.04、18.04 和 CentOS >= 7.7 上。
-
在 CentOS 7.6 上将 Lustre 客户端版本升级到 2.10.8 。
-
将NVIDIA驱动程序升级到版本470.182.03 (从版本470.141.03 )。
-
将NVIDIA结构管理器升级到版本470.182.03 (从版本470.141.03 )。
-
将NVIDIACUDA工具包升级到版本11.8.0 (从版本11.7.1 )。
-
将NVIDIACUDA示例升级到版本11.8.0 。
-
将英特尔MPI库升级到 2021 版更新 9(从 2021 版更新 6 开始)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 9。
-
升级NICEDCV到版本2023.0-15022 (从版本2022.2-14521 )。
-
server:2023.0.15022-1 (从版本 2022.2-14521-1 )。
-
xdcv:2023.0.547-1 (从版本 2022.2.519-1 )。
-
gl:2023.0.1027-1 (从版本 2022.2.1012-1 )。
-
web_viewer:2023.0.15022-1 (从版本 2022.2.14521-1 )。
-
将 aws-cfn-bootstrap 升级到版本 2.0-24 。
-
升级 CodeBuild 环境在为集 AWS Batch 群构建容器镜像时使用的镜像:
错误修复:
-
修复 Amazon EFS 和 Amazon FSx 网络安全组验证器,避免报告虚假错误。
-
修复了 Image Builder 在 build-image 操作期间创建的资源缺少标记的问题。
-
修复了 MaxCount 的更新策略,使其始终对 MaxCount 属性进行数值比较。
-
修复了具有多个网卡的计算节点实例上的 IP 一致性问题。
-
修复了在执行队列参数更新后 Slurm 会计配置未更新时 slurm_parallelcluster_slurmdbd.conf 中 StoragePass 的替换问题。
-
修复了在使用现有EFS文件系统创建集群时导致创建悬空安全组的问题。
-
修复了重启 cfn-hup 进程守护程序时导致其失败的问题。
-
将带有 INVALID_REG 标记的动态节点视为 Slurm 保护模式的引导失败。node_replacement_timeout 之后 Slurm 注册失败的静态节点已被视为引导失败。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2023 年 5 月 22 日 |
AWS ParallelCluster 用户界面版本 2023.05.0 已发布 | AWS ParallelCluster 用户界面版本 2023.05.0 已发布。
有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG 文件 GitHub。 | 2023 年 5 月 16 日 |
AWS ParallelCluster 用户界面版本 2023.04.0 已发布 | AWS ParallelCluster 用户界面版本 2023.04.0 已发布。
增强功能:
-
重新设计了集群创建向导。
-
重新设计了集群日志页面。
-
为共享存储添加了自定义名称设置。
-
在向集群添加存储时添加了多个存储选项。
-
添加对 Amazon EFS 和 Lustre FSx 的DeletionPolicy 支持。
-
在集群配置中添加了 ImdsSupport 设置。
-
添加了对 C7 实例类型的支持。
-
添加了教程恢复到以前的 AWS Systems Manager 文档版本。
更改:
-
集群配置大小不YAML超过 1MB。
-
由于使用 Boto3 IAM 临时凭证进行授权,用户未注销。
-
选择HPC实例时禁用多线程选项。
-
删除了集群创建页面上的禁用回滚功能。
-
在提供所需信息之前,用户将无法使用用户 AWS ParallelCluster 界面。
-
最多可以添加 10 个队列。
-
在 AWS ParallelCluster UI 安装过程中不覆盖 SSM-SessionManagerRunShell 文档。
错误修复:
-
修复了损坏的重置密码链接。
-
修复了因 EcrPrivateRepository 不为空而导致 delete stack 损坏的问题
-
修复了多用户管理属性部分中 “生成SSH密钥” 复选框的初始化问题。
-
修复了因作业具有未定义属性而导致崩溃的问题。
-
固定SCRATCHFSx设置。
-
修复了“启动和停止实例”按钮,单击一次后仍处于启用状态。
有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG 文件 GitHub。 | 2023 年 4 月 17 日 |
AWS ParallelCluster 3.5.1 版本已发布 | AWS ParallelCluster 3.5.1 版本已发布。
更改:
-
将EFA安装程序升级到1.22.0 。
-
Efa-driver:efa-2.1.1g (从 efa-2.1.1-1 )
-
Efa-config:efa-config-1.13-1 (从 efa-config-1.12-1)
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.17.0-1 (从 libfabric-aws-1.16.1amzn3.0-1 )
-
Rdma-core:rdma-core-43.0-1 (无变化)
-
打开MPI:openmpi40-aws-4.1.5-1 (来自openmpi40-aws-4.1.4-3 )
升级NICEDCV到版本2022.2-14521 。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2023 年 3 月 29 日 |
AWS ParallelCluster 3.5.0 版本已发布 | AWS ParallelCluster 3.5.0 版本已发布。
增强功能:
-
使用 AWS ParallelCluster UI 访问和管理集群。
-
在 CloudFormation 模板中添加版本化 AWS ParallelCluster 策略,供您在工作负载中引用。
-
添加可与自己的代码一起使用的 AWS ParallelCluster Python 库。
-
在计算节点引导失败时向 Amaz CloudWatch on 添加计算节点控制台输出的日志记录。
-
集群创建失败时向 describe-cluster 输出中添加了包含失败代码和原因的失败字段。
-
添加了验证器以防止在调用子进程模块时注入恶意字符串。
-
在配置静态节点时,如果集群状态更改为 PROTECTED ,则集群创建将失败。
错误修复:
-
在启用 Slurm 会计的情况下,通过验证集群名称是否不超过 40 个字符,修复了集群数据库创建问题。
-
修复了在 clustermgtd Amazon EC2 实例状态检查失败时导致通过Slurm重启的计算节点被替换的问题。
-
修复了由于头节点上的IAM策略不正确而导致其他账户共享容量预留的计算节点无法启动的问题。
有关更改的详细信息,请参阅上的 aws-parallelcluster、aws-parallelcluster-cookbookaws-parallelcluster-node、和软件包的CHANGELOG 文件。aws-parallelcluster-ui GitHub | 2023 年 2 月 20 日 |
AWS ParallelCluster 3.4.1 版本已发布 | AWS ParallelCluster 3.4.1 版本已发布。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2023 年 1 月 13 日 |
AWS ParallelCluster 3.4.0 版本已发布 | AWS ParallelCluster 3.4.0 版本已发布。
更改:
-
删除为现有文件系统创建的 Amazon EFS 挂载目标。
-
使用挂载EFS文件系统amazon-efs-utils 。EFS可以使用传输中加密和IAM授权用户来装载文件系统。
-
在 Cent OS7 和 Ubuntu 上安装 stunnel 5.67 以支持传输中加密。EFS
-
将EFA安装程序升级到1.20.0 (从1.18.0 )。
-
Efa-driver:efa-2.1 (从 efa-1.16.0-1 )
-
Efa-config:efa-config-1.11-1 (无变化)
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.16.1 (从 libfabric-aws-1.16.0~amzn4.0-1 )
-
Rdma-core:rdma-core-43.0-2 (从 rdma-core-41.0-2 )
-
打开MPI:openmpi40-aws-4.1.4-3 来自 (openmpi40-aws-4.1.4-2 )
-
将 Slurm 升级到版本 22.05.7 (从 22.05.5 )。
-
将 Python 升级到 3.9.16 和 3.7.16 (从 3.9.15 和 3.7.13 )。
-
使用 Slurm 22.05.7 ,处于 IDLE+CLOUD+COMPLETING+POWER_DOWN+NOT_RESPONDING 状态的动态节点不会被视为运行状况不佳。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2022 年 12 月 22 日 |
AWS ParallelCluster 3.3.1 版本已发布 | AWS ParallelCluster 3.3.1 版本已发布。
有关更改的详细信息,请参阅上的 aws-parallel cluster 软件包CHANGELOG 文件。 GitHub | 2022 年 12 月 2 日 |
AWS ParallelCluster 仅限文档 hpc6id 注意 | AWS ParallelCluster 仅限文档的更新
| 2022 年 12 月 2 日 |
AWS ParallelCluster 3.1.5 版本已发布 | AWS ParallelCluster 3.1.5 版本已发布。
增强功能:
-
Slurm修复了阻止空闲节点终止的问题。
-
将EFA安装程序升级到 1.18.0
-
Efa-driver:efa-1.16.0-1
-
Efa-config:efa-config-1.11-1 (从 efa-config-1.9-1 )
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.16.0~amzn4.0-1 (从 libfabric-1.13.2 )
-
Rdma-core:rdma-core-41.0-2 (从 rdma-core-37.0 )
-
打开MPI:openmpi40-aws-4.1.4-2 (来自openmpi40-aws-4.1.1-2 )
更改:
-
将lambda:ListTags 和lambda:UntagResource 添加到 AWS ParallelCluster API堆栈ParallelClusterUserRole 用于集群更新的中。
-
将英特尔MPI库升级到 2021 版更新 6(从 2021 版更新 4 开始)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 6。
-
将NVIDIA驱动程序升级到版本 470.141.03(从 470.103.01 开始)。
-
将 NVIDIA Fabric Manager 升级到版本 470.141.03(从 470.103.01 开始)。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2022 年 11 月 16 日 |
AWS ParallelCluster 3.3.0 版本已发布 | AWS ParallelCluster 3.3.0 版本已发布。
更改:
-
更改了 SlurmQueues/Networking/PlacementGroup/Enabled 的行为。现在,它会为每个计算资源创建一个唯一的托管置放群组,而不是为所有计算资源创建一个托管置放群组。
-
添加了对 SlurmQueues/Networking/PlacementGroup/Name 作为首选命名方法的支持。
-
将头节点标签从启动模板移动到了实例定义中,以避免在标签更新时替换头节点。
-
通过 cloud-init 执行的脚本而不是通过启动模板中设置的 CpuOptions 禁用多线程处理。
-
在基础架构、Docker 容器和集群 Lambda 资源中API将 Python 升级到版本 3.9API,将 NodeJS 升级到版本 16。
-
在 aws-parallelcluster-batch-cli 中删除了对 Python 3.6 的支持。
-
将 Slurm 升级到版本 22.05.5 (从 21.08.8-2 )。
-
将NVIDIA驱动程序升级到版本470.141.03 (从470.129.06 )。
-
将 NVIDIA Fabric Manager 升级到版本470.141.03 (从470.129.06 )。
-
将NVIDIACUDA工具包升级到版本 11.7.1 (from 11.4.4 )。
-
将 v AWS ParallelCluster irtualenvs 中使用的 Python 从3.7.13 升级到。3.9.15
-
将EFA安装程序升级到 1.18.0 版。
-
Efa-driver:efa-1.16.0-1 (无变化)
-
Efa-config:efa-config-1.11-1 (from
efa-config-1.10-1 )
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.16.0~amzn4.0-1 (从 libfabric-aws-1.16.0~amzn2.0-1 )
-
Rdma-core:rdma-core-41.0-2 (从 rdma-core-37.0 )
-
打开MPI:openmpi40-aws-4.1.4-2 (来自openmpi40-aws-4.1.1-2 )
-
升级NICEDCV到版本2022.1-13300 (从2022.0-12760 )。
-
为 Queues 启用 SingleSubnetValidator 抑制。
-
当节点处于 COMPLETING 状态时不替换 DRAIN 节点,因为 Epilog 可能仍在运行。
错误修复:
-
修复了 AWS ParallelCluster
ListClusterLogStreams 命令中过滤器参数的验证失败的问题,即当传递的过滤器不正确时。
-
修复了与EfsSettings其他 SharedStorageSharedStorage/参数一起指定FileSystemId 时无法验证EfsSettings参数/的问题。以前不包括 FileSystemId 。
-
修复了在配置中更改 SharedStorage 的顺序以及进行其他更改时的集群更新问题。
-
修复UpdateParallelClusterLambdaRole 了 AWS ParallelCluster API要将日志上传到的内容 CloudWatch。
-
修复了在执行任何说明书之前安装程序包时 Cinc 不使用本地 CA 证书捆绑包的问题。
-
修复了在设置 Build:UpdateOsPackages:Enabled:true 后使用 pcluster build-image 升级 ubuntu 时出现的挂起问题。
-
修复了由于密钥重复失败而导致的YAML集群配置解析问题。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2022 年 11 月 2 日 |
AWS ParallelCluster 添加了仅限文档的API参考。 | AWS ParallelCluster 仅限文档的更新
| 2022 年 10 月 27 日 |
AWS ParallelCluster 3.2.1 版本已发布 | AWS ParallelCluster 3.2.1 版本已发布。
更改:
-
将NVIDIA驱动程序升级到版本 470.141.03。
-
将 NVIDIA Fabric Manager 升级到版本 470.141.03。
-
禁用可能对节点性能产生负面影响的 cron 作业任务 man-db 和 mlocate 。
-
将英特尔MPI库升级到 2021.6.0.602。
-
将 Python 从 3.7.10 升级到 3.7.13 以应对这种安全风险。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2022 年 10 月 3 日 |
AWS ParallelCluster 3.2.0 版本已发布 | AWS ParallelCluster 3.2.0 版本已发布。
更改:
-
将EFA安装程序升级到版本 1.17.2。
-
EFA司机:efa-1.16.0-1
-
EFA配置:efa-config-1.10-1
-
EFA个人资料:efa-profile-1.5-1
-
Libfabric:libfabric-aws-1.16.0~amzn2.0-1
-
RDMA核心:rdma-core-41.0-2
-
打开MPI:openmpi40-aws-4.1.4-2
-
升级NICEDCV到 2022.0-12760 版本。
-
将NVIDIA驱动程序升级到版本 470.129.06。
-
将 NVIDIA Fabric Manager 升级到版本 470.129.06。
-
将根EBS卷和其他卷中的默认卷类型从 gp2 更改为 gp3。
-
对FSx于 Lustre 文件系统的更改由以下人员创建: AWS ParallelCluster
-
将默认部署类型更改为 Scratch_2 。
-
将 Lustre 服务器版本更改为 2.12 。
-
传递现有的 PlacementGroup /Id 时不需要将 PlacementGroup/Enabled 设置为 true 。
-
当 PlacementGroup /Enabled 显式设置为 false 时,不允许设置 PlacementGroup /Id 。
-
为 AWS ParallelCluster创建的所有资源添加标签 parallelcluster:cluster-name 。
-
添加lambda:ListTags 和lambda:UntagResource ,供 AWS ParallelCluster API堆栈ParallelClusterUserRole 用于集群更新。
-
启用配置参数HeadNode /Imds /Secured 后,仅限根用户和集群管理员用户IPv6访问权限。IMDS
-
对于自定义AMI,请使用AMI根卷大小,而不是 ParallelCluster默认的 35 GiB。可以在集群配置文件中更改该值。
-
当配置参数 Scheduling /SlurmQueues /ComputeResources /SpotPrice 低于所需的最低竞价型请求履行价格时,自动禁用计算实例集。
-
在更新期间添加或删除某个部分时,在更改集中显示 requested_value 和 current_value 值。
-
禁用深度学习中提供的aws-ubuntu-eni-helper 服务AMIs,以避免在配置具有多个网卡的实例configure_nw_interface.sh 时发生冲突。
-
删除了对 Python 3.6 的支持。
-
MTU使用多个网卡配置实例时,所有网络接口均设置为 9001。
-
配置计算节点时,删除尾随的圆点FQDN。
-
在 POWERING_DOWN 中管理静态节点。
-
不替换 POWER_DOWN 中的动态节点,因为作业可能仍在运行。
-
只有在更新了集群配置中的 Scheduling 参数时,才会在集群更新时重启 clustermgtd 和 slurmctld 进程守护程序。
-
更新 slurmctld 和 slurmd systemd 服务文件。
-
启用配置参数HeadNode /Imds /Secured 后,仅限根用户和集群管理员用户IPv6访问权限。IMDS
-
设置Slurm配置AuthInfo=cred_expire=70 以缩短在节点不可用时重新排队的任务在重新启动之前必须等待的时间。
-
升级第三方说明书依赖项:
-
apt-7.4.2(从 apt-7.4.0)
-
line-4.5.2(从 line-4.0.1)
-
openssh-2.10.3(从 openssh-2.9.1)
-
pyenv-3.5.1(从 pyenv-3.4.2)
-
selinux-6.0.4(从 selinux-3.1.1)
-
yum-7.4.0(从 yum-6.1.1)
-
yum-epel-4.5.0(从 yum-epel-4.1.2)
错误修复:
-
修复默认行为,以便在构建自定义时跳过 AWS ParallelCluster 验证和测试步骤AMI。
-
修复了 computemgtd 中的文件句柄泄漏问题。
-
修复了由于响应中尚不可用而偶尔导致已启动的实例立即终止的争用条件。EC2 DescribeInstances
-
对于使用 Arm 处理器的实例类型,修复了对 DisableSimultaneousMultithreading 参数的支持。
-
修复从先前版本升级时 AWS ParallelCluster API堆栈更新失败的问题。在 EcrImageDeletionLambdaRole 中添加了用于 ListImagePipelineImages 操作的资源模式。
-
修复了在创建 for Lustre 文件系统时 AWS ParallelCluster API添加从 Amazon S3 导入或导出所需的缺少权限的问题。FSx
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2022 年 7 月 27 日 |
AWS ParallelCluster 今年迄今为止仅限文档的更新 | AWS ParallelCluster 仅限文档的更新。
| 2022 年 7 月 6 日 |
AWS ParallelCluster 3.1.4 版本已发布 | AWS ParallelCluster 3.1.4 版本已发布。
错误修复:
-
修复了使用带 --filters 选项的 export-cluster-logs 命令时导出集群日志的功能。
-
修复 AWS Batch Docker 入口点以使用/home 共享目录来协调多节点并行作业执行。
-
将运行Slurm状况不佳的静态节点设置为关闭时重置节点地址,以避免将容量不足的静态节点视为引导失败节点。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2022 年 5 月 16 日 |
AWS ParallelCluster 3.1.3 版本已发布 | AWS ParallelCluster 3.1.3 版本已发布。
增强功能:
-
在创建HOME目录的同时执行SSH密钥创建,例如,在SSH登录期间、切换到其他用户以及以其他用户身份执行命令时。
-
在配置参数 DirectoryService/中添加对两者FQDN以及可LDAP分辨名称的支持DomainName。新验证器现在会检查这两种语法。
-
部署在头节点上的新update_directory_service_password.sh 脚本支持手动更新SSSD配置中的 Active Directory 密码。密码由 a AWS Secrets Manager s 从集群配置中检索。
-
添加对在没有默认设置的环境中部署API基础架构的支持VPC。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbook GitHub | 2022 年 4 月 20 日 |
AWS ParallelCluster 3.1.2 版本已发布 | AWS ParallelCluster 3.1.2 版本已发布。
有关更改的详细信息,请参阅上的 aws-parallel cluster 软件包的CHANGELOG 文件。 GitHub | 2022 年 3 月 2 日 |
AWS ParallelCluster 3.1.1 版本已发布 | AWS ParallelCluster 3.1.1 版本已发布。
-
通过与通过 AWS Directory Service托管的 Active Directory (AD) 域集成,添加了对多用户集群环境的支持。
-
在集群配置文件中添加了对 UseEc2Hostnames 的支持。设置为 true 时,请使用亚马逊的EC2默认主机名(例如 ip-1-2-3-4)作为计算节点。
-
添加了对在没有互联网访问权限的子网中创建集群的支持。
-
添加了对每个队列包含多种计算实例类型的支持。
-
添加对使用NVIDIA卡片的ARM实例Slurm进行GPU调度的支持。
-
将 ()、cluster-name (-n )、region (-r ) 和cluster-configuration /image-id image-configuration (-i -c ) 的缩写标志添加到中。 AWS ParallelCluster CLI
-
添加对 Lustre AutoImportPolicy参数NEW_CHANGED_DELETED 选项FSx的支持。
-
为计算节点使用的EC2LaunchTemplates 资源添加parallelcluster:compute-resource-name 标签。
-
改进了在集群中创建的安全组,在为某些头节点和/或队列指定 SecurityGroups 参数的情况下,允许来自自定义安全组的入站连接。
-
为安装NVIDIA驱动程序和CUDA库ARM。
更改:
-
将 Slurm 升级到版本 21.08.5 (从 20.11.8 )。
-
将Slurm插件升级到版本21.08 (从20.11 )。
-
升级NICEDCV到版本2021.3-11591 (从2021.1-10851 )。
-
将NVIDIA驱动程序升级到版本470.103.01 (从470.57.02 )。
-
将NVIDIA结构管理器升级到版本470.103.01 (从470.57.02 )。
-
将 CUDA 升级到版本 11.4.4 (从 11.4.0 )。
-
英特尔MPI已更新至 2021 版更新 4(从 2019 年版本更新 8 更新)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 4。
-
将 PMIx 升级到版本 3.2.3 (从 3.1.5 )。
-
删除了将失败的计算节点转储到 /home/logs/compute 。计算节点日志文件在 Amazon EC2 控制台日志 CloudWatch 和控制台日志中均可用。
-
启用潜在抑制 SlurmQueues 和 ComputeResources 长度验证器。
-
在 Amazon Linux 2 上禁用实例启动时的程序包更新。
-
在构建 AWS ParallelCluster
自定义图像时禁用 Amazon EC2 ImageBuilder 增强版图像元数据。
-
将cloud-init 数据源明确设置为。EC2这可节省 Ubuntu 和 CentOS 平台的启动时间。
-
在计算实例集启动模板名称中使用计算资源名称而不是实例类型。
-
将 stderr 和 stdout 重定向到CLI日志文件,以防止 pcluster 输出中出现不需要的文本。CLI
-
将配置/安装食谱移动到从主程序调用的单独说明书中。现有的入口点保持不变,并且向后兼容。
-
在AMI构建期间下载英特尔HPC平台的依赖关系,以避免在集群创建期间联系互联网。
-
配置 Slurm 节点时不从计算资源名称中删除 - 。
-
未安装NVIDIA驱动程序Slurm时GPUs,请勿在中进行配置。
-
修复了 BatchUserRole 中的 ecs:ListContainerInstances 权限。
-
修复了未指定前缀时的集群日志导出问题,以前导出为 None 前缀。
-
修复了集群更新失败时不执行回滚的问题。
-
修复了 BatchUserRole 中的 ecs:ListContainerInstances 权限。
-
修复了 HeadNode 的 RootVolume 架构,如果指定了不支持的 KmsKeyId ,则会引发错误。
-
修复 Amazon FSx 缺少要在 CloudWatch 控制面板中显示的指标。
-
修复了 EfaSecurityGroupValidator 。以前,当提供并启用自定义安全组时,可能会产生错误的EFA故障。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2022 年 2 月 10 日 |
AWS ParallelCluster 3.0.3 版本已发布 | AWS ParallelCluster 3.0.3 版本已发布。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbook GitHub | 2022 年 1 月 17 日 |
AWS ParallelCluster 3.0.2 版本已发布 | AWS ParallelCluster 3.0.2 版本已发布。
将 Elastic Fabric Adapter 安装程序升级到 1.14.1
-
EFA配置:efa-config-1.9-1 (来自efa-config-1.9 )
-
EFA个人资料:efa-profile-1.5-1 (来自efa-profile-1.5 )
-
EFA内核模块:efa-1.14.2 (来自efa-1.13.0 )
-
RDMA核心:rdma-core-37.0 (来自rdma-core-35 )
-
libfabric:libfabric-1.13.2 (从 libfabric-1.13.0 )
-
打开MPI:openmpi40-aws-4.1.1-2 (无变化)
GPUDirectRDMA如果实例类型支持,则始终处于启用状态。GdrSupport配置选项无效。 有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub | 2021 年 11 月 5 日 |
AWS ParallelCluster 3.0.1 版本已发布 | AWS ParallelCluster 3.0.1 版本已发布。
默认从~/.aws/config 文件 AWS 区域 读取
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub | 2021 年 10 月 27 日 |
AWS ParallelCluster 3.0.0 版本已发布 | AWS ParallelCluster 3.0.0 版本已发布。
支持通过 Amazon API Gateway 进行集群管理
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub | 2021 年 9 月 10 日 |