EFA 및 NCCL 시작하기
NVIDIA Collective Communications Library(NCCL)는 단일 노드 또는 여러 노드에서 여러 GPU를 위한 표준 집합적 통신 루틴의 라이브러입니다. NCCL은 EFA, Libfabric 및 MPI와 함께 사용하여 다양한 기계 학습 워크로드를 지원할 수 있습니다. 자세한 내용은 NCCL
참고
-
EFA와 함께 사용하는 NCCL은
p3dn.24xlarge
,p4d.24xlarge
및p5.48xlarge
에서만 지원됩니다. -
NCCL 2.4.2 이상만 EFA에서 지원됩니다.
다음 자습서는 기계 학습 워크로드를 위한 NCCL 지원 인스턴스 클러스터와 EFA를 시작하는 데 도움이 됩니다.