Conceitos básicos do EFA e NCCL
A Nvidia Collective Communications Library (NCCL) é uma biblioteca de rotinas de comunicação coletiva padrão para várias GPUs em um único nó ou em vários nós. A NCCL pode ser usada com o EFA, o Libfabric e a MPI para oferecer suporte a várias workloads de machine learning. Para obter mais informações, consulte o site da NCCL
nota
-
A NCCL com o EFA só é compatível com
p3dn.24xlarge
,p4d.24xlarge
ep5.48xlarge
. -
Somente a NCCL 2.4.2 e posterior são compatíveis com EFA.
Os tutoriais a seguir ajudam a executar um cluster de instância habilitado para NCCL e EFA para workloads de machine learning.