EFA 和 NCCL 入门 - Amazon Elastic Compute Cloud

EFA 和 NCCL 入门

NVIDIA Collective Communications Library (NCCL) 是一个标准集体通信例程库,它适用于跨单个节点或多个节点的多个 GPU。可将 NCCL 与 EFA、libfabric 和 MPI 结合使用来支持各种机器学习工作负载。有关更多信息,请参阅 NCCL 网站。

注意
  • p3dn.24xlargep4d.24xlargep5.48xlarge 实例支持将 NCCL 与 EFA 结合使用。

  • 仅支持将 NCCL 2.4.2 及更高版本与 EFA 结合使用。

以下教程可帮助您为机器学习工作负载启动启用了 EFA 和 NCCL 的实例集群。