EFA 和 NCCL 入门
NVIDIA Collective Communications Library (NCCL) 是一个标准集体通信例程库,它适用于跨单个节点或多个节点的多个 GPU。可将 NCCL 与 EFA、libfabric 和 MPI 结合使用来支持各种机器学习工作负载。有关更多信息,请参阅 NCCL
注意
-
仅
p3dn.24xlarge
、p4d.24xlarge
和p5.48xlarge
实例支持将 NCCL 与 EFA 结合使用。 -
仅支持将 NCCL 2.4.2 及更高版本与 EFA 结合使用。
以下教程可帮助您为机器学习工作负载启动启用了 EFA 和 NCCL 的实例集群。