EFA および NCCL の開始方法 - Amazon Elastic Compute Cloud

EFA および NCCL の開始方法

Nvidia Collective Communications Library (NCCL) は、単一のノードまたは複数のノードの複数の GPU のための集合的な標準コミュニケーションルーチンのライブラリです。NCCL は、各種の機械学習のワークロードをサポートするために、EFA、Libfabric、MPI と共に使用できます。詳細については、NCCL のウェブサイトを参照してください。

注記
  • EFA を持つ NCCL は、p3dn.24xlarge インスタンスのみを使用してサポートされています。

  • NCCL EFA 以降のみが 2.4.2 でサポートされています。

以下のチュートリアルは、機械学習のワークロードの EFA と NCCL 対応のインスタンスクラスターの起動に役立ちます。