Conceitos básicos do EFA e NCCL - Amazon Elastic Compute Cloud

Conceitos básicos do EFA e NCCL

A Nvidia Collective Communications Library (NCCL) é uma biblioteca de rotinas de comunicação coletiva padrão para várias GPUs em um único nó ou em vários nós. A NCCL pode ser usada com o EFA, o Libfabric e a MPI para oferecer suporte a várias workloads de machine learning. Para obter mais informações, consulte o site da NCCL.

nota
  • A NCCL com o EFA só é compatível com p3dn.24xlarge, p4d.24xlarge e p5.48xlarge.

  • Somente a NCCL 2.4.2 e posterior são compatíveis com EFA.

Os tutoriais a seguir ajudam a executar um cluster de instância habilitado para NCCL e EFA para workloads de machine learning.