EFA 및 NCCL 시작하기 - Amazon Elastic Compute Cloud

EFA 및 NCCL 시작하기

NVIDIA Collective Communications Library(NCCL)는 단일 노드 또는 여러 노드에서 여러 GPU를 위한 표준 집합적 통신 루틴의 라이브러입니다. NCCL은 EFA, Libfabric 및 MPI와 함께 사용하여 다양한 기계 학습 워크로드를 지원할 수 있습니다. 자세한 내용은 NCCL 웹 사이트를 참조하세요.

참고
  • EFA와 함께 사용하는 NCCL은 p3dn.24xlarge, p4d.24xlargep5.48xlarge에서만 지원됩니다.

  • NCCL 2.4.2 이상만 EFA에서 지원됩니다.

다음 자습서는 기계 학습 워크로드를 위한 NCCL 지원 인스턴스 클러스터와 EFA를 시작하는 데 도움이 됩니다.