EFA 에서 사용 DLAMI

다음 섹션에서는 를 EFA 사용하여 에서 다중 노드 애플리케이션을 실행하는 방법을 설명합니다 AWS Deep Learning AMIs.

EFA을 사용하여 다중 노드 애플리케이션 실행

노드 클러스터에서 애플리케이션을 실행하려면 다음 구성이 필요합니다.

주제

암호 없음 활성화 SSH
호스트 파일 생성
NCCL 테스트

암호 없음 활성화 SSH

클러스터의 노드 하나를 리더 노드로 선택합니다. 나머지 노드들을 멤버 노드라고 합니다.

리더 노드에서 RSA 키 페어를 생성합니다.
```
ssh-keygen -t rsa -N "" -f ~/.ssh/id_rsa
```
리더 노드에서 프라이빗 키의 사용 권한을 변경합니다.
```
chmod 600 ~/.ssh/id_rsa
```
퍼블릭 키를 ~/.ssh/id_rsa.pub에 복사하고 클러스터~/.ssh/authorized_keys의 멤버 노드에 추가합니다.
이제 프라이빗 IP를 사용하여 리더 노드에서 멤버 노드에 직접 로그인 할 수 있습니다.
```
ssh <member private ip>
```
strictHostKey확인을 비활성화하고 리더 노드의 ~/.ssh/config 파일에 다음을 추가하여 리더 노드에서 에이전트 전달을 활성화합니다.
```
Host *
    ForwardAgent yes
Host *
    StrictHostKeyChecking no
```
Amazon Linux 2 인스턴스의 리더 노드에서 다음 명령을 실행하여 구성 파일에 올바른 권한을 제공합니다.
```
chmod 600 ~/.ssh/config
```

호스트 파일 생성

리더 노드에서 클러스터의 노드를 식별하기 위한 호스트 파일을 생성합니다. 호스트 파일에는 클러스터의 각 노드에 대한 항목이 있어야 합니다. 파일 ~/hosts를 생성하고 다음과 같이 프라이빗 IP를 사용하여 각 노드를 추가합니다.


localhost slots=8
<private ip of node 1> slots=8
<private ip of node 2> slots=8

NCCL 테스트

참고

이러한 테스트는 EFA 버전 1.30.0 및 OFI NCCL 플러그인 1.7.4를 사용하여 실행되었습니다.

다음은 여러 컴퓨팅 노드에서 기능과 성능을 모두 테스트하기 위해 Nvidia에서 제공하는 NCCL 테스트의 하위 집합입니다.

지원되는 인스턴스: P3dn, P4, P5

NCCL 메시지 전송 다중 노드 테스트

nccl_message_transfer는 NCCL OFI 플러그인이 예상대로 작동하는지 확인하는 간단한 테스트입니다. 테스트는 의 NCCL연결 설정 및 데이터 전송 기능을 검증합니다APIs. 를 사용하여 NCCL 애플리케이션을 실행하는 동안 예제와 같이 전체 경로를 사용하여 mpirun해야 합니다EFA. GPUs 클러스터의 인스턴스 np 및 수에 N 따라 및 파라미터를 변경합니다. 자세한 내용은 AWS OFI NCCL 설명서를 참조하세요.

다음 nccl_message_transfer 테스트는 일반 CUDA xx.x 버전용입니다. 스크립트의 CUDA 버전을 교체하여 Amazon EC2 인스턴스에서 사용 가능한 모든 CUDA 버전에 대해 명령을 실행할 수 있습니다.


$/opt/amazon/openmpi/bin/mpirun -n 2 -N 1 --hostfile hosts \
-x LD_LIBRARY_PATH=/usr/local/cuda-xx.x/efa/lib:/usr/local/cuda-xx.x/lib:/usr/local/cuda-xx.x/lib64:/usr/local/cuda-xx.x:$LD_LIBRARY_PATH \
--mca btl tcp,self --mca btl_tcp_if_exclude lo,docker0 --bind-to none \
opt/aws-ofi-nccl/tests/nccl_message_transfer

출력은 다음과 같아야 합니다. 출력을 확인하여 EFA 가 OFI 공급자로 사용되고 있는지 확인할 수 있습니다.


INFO: Function: nccl_net_ofi_init Line: 1069: NET/OFI Selected Provider is efa (found 4 nics)
INFO: Function: nccl_net_ofi_init Line: 1160: NET/OFI Using transport protocol SENDRECV
INFO: Function: configure_ep_inorder Line: 261: NET/OFI Setting FI_OPT_EFA_SENDRECV_IN_ORDER_ALIGNED_128_BYTES not supported.
INFO: Function: configure_nccl_proto Line: 227: NET/OFI Setting NCCL_PROTO to "simple"
INFO: Function: main Line: 86: NET/OFI Process rank 1 started. NCCLNet device used on ip-172-31-13-179 is AWS Libfabric.
INFO: Function: main Line: 91: NET/OFI Received 4 network devices
INFO: Function: main Line: 111: NET/OFI Network supports communication using CUDA buffers. Dev: 3
INFO: Function: main Line: 118: NET/OFI Server: Listening on dev 3
INFO: Function: main Line: 131: NET/OFI Send connection request to rank 1
INFO: Function: main Line: 173: NET/OFI Send connection request to rank 0
INFO: Function: main Line: 137: NET/OFI Server: Start accepting requests
INFO: Function: main Line: 141: NET/OFI Successfully accepted connection from rank 1
INFO: Function: main Line: 145: NET/OFI Send 8 requests to rank 1
INFO: Function: main Line: 179: NET/OFI Server: Start accepting requests
INFO: Function: main Line: 183: NET/OFI Successfully accepted connection from rank 0
INFO: Function: main Line: 187: NET/OFI Rank 1 posting 8 receive buffers
INFO: Function: main Line: 161: NET/OFI Successfully sent 8 requests to rank 1
INFO: Function: main Line: 251: NET/OFI Got completions for 8 requests for rank 0
INFO: Function: main Line: 251: NET/OFI Got completions for 8 requests for rank 1

P4d .24xlarge의 다중 노드 NCCL 성능 테스트

를 사용하여 NCCL 성능을 확인하려면 공식 - 테스트 리포지토리 에서 사용할 수 있는 표준 NCCL 성능 테스트를 EFA실행합니다. NCCL 는 CUDA XX.X용으로 이미 구축된 이 테스트와 함께 DLAMI 제공됩니다. 마찬가지로 를 사용하여 자체 스크립트를 실행할 수 있습니다EFA.

자체 스크립트를 작성할 때 다음 지침을 참조하세요.

를 사용하여 NCCL 애플리케이션을 실행하는 동안 예제와 같이 mpirun에 대한 전체 경로를 사용합니다EFA.
클러스터의 인스턴스 및 수GPUs에 따라 파라미터 np 및 N을 변경합니다.
NCCL_DEBUG=INFO 플래그를 추가하고 로그에 EFA 사용량이 “선택된 공급자EFA”로 표시되는지 확인합니다.
검증을 위해 구문 분석할 훈련 로그 위치 설정
```
TRAINING_LOG="testEFA_$(date +"%N").log"
```

멤버 노드watch nvidia-smi에서 명령을 사용하여 GPU 사용량을 모니터링합니다. 다음 watch nvidia-smi 명령은 일반 CUDA xx.x 버전용이며 인스턴스의 운영 체제에 따라 다릅니다. 스크립트의 CUDA 버전을 교체하여 Amazon EC2 인스턴스에서 사용 가능한 모든 CUDA 버전에 대해 명령을 실행할 수 있습니다.

Amazon Linux 2:


 $ /opt/amazon/openmpi/bin/mpirun -n 16 -N 8 \
-x NCCL_DEBUG=INFO --mca pml ^cm \
-x LD_LIBRARY_PATH=/usr/local/cuda-xx.x/efa/lib:/usr/local/cuda-xx.x/lib:/usr/local/cuda-xx.x/lib64:/usr/local/cuda-xx.x:/opt/amazon/efa/lib64:/opt/amazon/openmpi/lib64:$LD_LIBRARY_PATH \
--hostfile hosts --mca btl tcp,self --mca btl_tcp_if_exclude lo,docker0 --bind-to none \
/usr/local/cuda-xx.x/efa/test-cuda-xx.x/all_reduce_perf -b 8 -e 1G -f 2 -g 1 -c 1 -n 100 | tee ${TRAINING_LOG}

Ubuntu 20.04:


$ /opt/amazon/openmpi/bin/mpirun -n 16 -N 8 \
-x NCCL_DEBUG=INFO --mca pml ^cm \
-x LD_LIBRARY_PATH=/usr/local/cuda-xx.x/efa/lib:/usr/local/cuda-xx.x/lib:/usr/local/cuda-xx.x/lib64:/usr/local/cuda-xx.x:/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:$LD_LIBRARY_PATH \
--hostfile hosts --mca btl tcp,self --mca btl_tcp_if_exclude lo,docker0 --bind-to none \
/usr/local/cuda-xx.x/efa/test-cuda-xx.x/all_reduce_perf -b 8 -e 1G -f 2 -g 1 -c 1 -n 100 | tee ${TRAINING_LOG}

출력은 다음과 같아야 합니다.


# nThread 1 nGpus 1 minBytes 8 maxBytes 1073741824 step: 2(factor) warmup iters: 5 iters: 100 agg iters: 1 validation: 1 graph: 0
#
# Using devices
#  Rank  0 Group  0 Pid   9591 on ip-172-31-4-37 device  0 [0x10] NVIDIA A100-SXM4-40GB
#  Rank  1 Group  0 Pid   9592 on ip-172-31-4-37 device  1 [0x10] NVIDIA A100-SXM4-40GB
#  Rank  2 Group  0 Pid   9593 on ip-172-31-4-37 device  2 [0x20] NVIDIA A100-SXM4-40GB
#  Rank  3 Group  0 Pid   9594 on ip-172-31-4-37 device  3 [0x20] NVIDIA A100-SXM4-40GB
#  Rank  4 Group  0 Pid   9595 on ip-172-31-4-37 device  4 [0x90] NVIDIA A100-SXM4-40GB
#  Rank  5 Group  0 Pid   9596 on ip-172-31-4-37 device  5 [0x90] NVIDIA A100-SXM4-40GB
#  Rank  6 Group  0 Pid   9597 on ip-172-31-4-37 device  6 [0xa0] NVIDIA A100-SXM4-40GB
#  Rank  7 Group  0 Pid   9598 on ip-172-31-4-37 device  7 [0xa0] NVIDIA A100-SXM4-40GB
#  Rank  8 Group  0 Pid  10216 on ip-172-31-13-179 device  0 [0x10] NVIDIA A100-SXM4-40GB
#  Rank  9 Group  0 Pid  10217 on ip-172-31-13-179 device  1 [0x10] NVIDIA A100-SXM4-40GB
#  Rank 10 Group  0 Pid  10218 on ip-172-31-13-179 device  2 [0x20] NVIDIA A100-SXM4-40GB
#  Rank 11 Group  0 Pid  10219 on ip-172-31-13-179 device  3 [0x20] NVIDIA A100-SXM4-40GB
#  Rank 12 Group  0 Pid  10220 on ip-172-31-13-179 device  4 [0x90] NVIDIA A100-SXM4-40GB
#  Rank 13 Group  0 Pid  10221 on ip-172-31-13-179 device  5 [0x90] NVIDIA A100-SXM4-40GB
#  Rank 14 Group  0 Pid  10222 on ip-172-31-13-179 device  6 [0xa0] NVIDIA A100-SXM4-40GB
#  Rank 15 Group  0 Pid  10223 on ip-172-31-13-179 device  7 [0xa0] NVIDIA A100-SXM4-40GB
ip-172-31-4-37:9591:9591 [0] NCCL INFO Bootstrap : Using ens32:172.31.4.37
ip-172-31-4-37:9591:9591 [0] NCCL INFO NET/Plugin: Failed to find ncclCollNetPlugin_v6 symbol.
ip-172-31-4-37:9591:9591 [0] NCCL INFO NET/Plugin: Failed to find ncclCollNetPlugin symbol (v4 or v5).
ip-172-31-4-37:9591:9591 [0] NCCL INFO cudaDriverVersion 12020
NCCL version 2.18.5+cuda12.2
...
ip-172-31-4-37:9024:9062 [6] NCCL INFO NET/OFI Initializing aws-ofi-nccl 1.7.4-aws
ip-172-31-4-37:9020:9063 [2] NCCL INFO NET/OFI Using CUDA runtime version 11070
ip-172-31-4-37:9020:9063 [2] NCCL INFO NET/OFI Configuring AWS-specific options
ip-172-31-4-37:9024:9062 [6] NCCL INFO NET/OFI Using CUDA runtime version 11070
ip-172-31-4-37:9024:9062 [6] NCCL INFO NET/OFI Configuring AWS-specific options
ip-172-31-4-37:9024:9062 [6] NCCL INFO NET/OFI Setting provider_filter to efa
ip-172-31-4-37:9024:9062 [6] NCCL INFO NET/OFI Setting FI_EFA_FORK_SAFE environment variable to 1
ip-172-31-4-37:9024:9062 [6] NCCL INFO NET/OFI Disabling NVLS support due to NCCL version 21602
ip-172-31-4-37:9020:9063 [2] NCCL INFO NET/OFI Setting provider_filter to efa
ip-172-31-4-37:9020:9063 [2] NCCL INFO NET/OFI Setting FI_EFA_FORK_SAFE environment variable to 1
ip-172-31-4-37:9020:9063 [2] NCCL INFO NET/OFI Disabling NVLS support due to NCCL version 21602
ip-172-31-4-37:9020:9063 [2] NCCL INFO NET/OFI Running on p4d.24xlarge platform, Setting NCCL_TOPO_FILE environment variable to /opt/aws-ofi-nccl/share/aws-ofi-nccl/xml/p4d-24xl-topo.xml
...
-----------------------------some output truncated-----------------------------------
#                                                              out-of-place                       in-place          
#       size         count      type   redop    root     time   algbw   busbw #wrong     time   algbw   busbw #wrong
#        (B)    (elements)                               (us)  (GB/s)  (GB/s)            (us)  (GB/s)  (GB/s)       
           0             0     float     sum      -1    11.02    0.00    0.00      0    11.04    0.00    0.00      0
           0             0     float     sum      -1    11.01    0.00    0.00      0    11.00    0.00    0.00      0
           0             0     float     sum      -1    11.02    0.00    0.00      0    11.02    0.00    0.00      0
           0             0     float     sum      -1    11.01    0.00    0.00      0    11.00    0.00    0.00      0
           0             0     float     sum      -1    11.02    0.00    0.00      0    11.02    0.00    0.00      0
         256             4     float     sum      -1    632.7    0.00    0.00      0    628.2    0.00    0.00      0
         512             8     float     sum      -1    627.4    0.00    0.00      0    629.6    0.00    0.00      0
        1024            16     float     sum      -1    632.2    0.00    0.00      0    631.7    0.00    0.00      0
        2048            32     float     sum      -1    631.0    0.00    0.00      0    634.2    0.00    0.00      0
        4096            64     float     sum      -1    623.3    0.01    0.01      0    633.6    0.01    0.01      0
        8192           128     float     sum      -1    635.1    0.01    0.01      0    633.5    0.01    0.01      0
       16384           256     float     sum      -1    634.8    0.03    0.02      0    637.0    0.03    0.02      0
       32768           512     float     sum      -1    647.9    0.05    0.05      0    636.8    0.05    0.05      0
       65536          1024     float     sum      -1    658.9    0.10    0.09      0    667.0    0.10    0.09      0
      131072          2048     float     sum      -1    671.9    0.20    0.18      0    662.9    0.20    0.19      0
      262144          4096     float     sum      -1    692.1    0.38    0.36      0    685.1    0.38    0.36      0
      524288          8192     float     sum      -1    715.3    0.73    0.69      0    696.6    0.75    0.71      0
     1048576         16384     float     sum      -1    734.6    1.43    1.34      0    729.2    1.44    1.35      0
     2097152         32768     float     sum      -1    785.9    2.67    2.50      0    794.5    2.64    2.47      0
     4194304         65536     float     sum      -1    837.2    5.01    4.70      0    837.6    5.01    4.69      0
     8388608        131072     float     sum      -1    929.2    9.03    8.46      0    931.4    9.01    8.44      0
    16777216        262144     float     sum      -1   1773.6    9.46    8.87      0   1772.8    9.46    8.87      0
    33554432        524288     float     sum      -1   2110.2   15.90   14.91      0   2116.1   15.86   14.87      0
    67108864       1048576     float     sum      -1   2650.9   25.32   23.73      0   2658.1   25.25   23.67      0
   134217728       2097152     float     sum      -1   3943.1   34.04   31.91      0   3945.9   34.01   31.89      0
   268435456       4194304     float     sum      -1   7216.5   37.20   34.87      0   7178.6   37.39   35.06      0
   536870912       8388608     float     sum      -1    13680   39.24   36.79      0    13676   39.26   36.80      0
[  1073741824      16777216    float     sum      -1    25645   41.87   39.25      0    25497   42.11   39.48      0 ] <- Used For Benchmark
...
# Out of bounds values : 0 OK
# Avg bus bandwidth    : 7.46044

EFA 테스트가 유효한 결과를 반환했는지 확인하려면 다음 테스트를 사용하여 확인하세요.

EC2 인스턴스 메타데이터를 사용하여 인스턴스 유형 가져오기:


TOKEN=$(curl -X PUT "http://169.254.169.254/latest/api/token" -H "X-aws-ec2-metadata-token-ttl-seconds: 21600")
INSTANCE_TYPE=$(curl -H "X-aws-ec2-metadata-token: $TOKEN" -v http://169.254.169.254/latest/meta-data/instance-type)

를 실행합니다. 성능 테스트

다음 파라미터 설정


CUDA_VERSION
CUDA_RUNTIME_VERSION
NCCL_VERSION

다음과 같이 결과를 검증합니다.


RETURN_VAL=`echo $?`
if [ ${RETURN_VAL} -eq 0 ]; then

    # Information on how the version come from logs
    # 
    # ip-172-31-27-205:6427:6427 [0] NCCL INFO cudaDriverVersion 12020
    # NCCL version 2.16.2+cuda11.8
    # ip-172-31-27-205:6427:6820 [0] NCCL INFO NET/OFI Initializing aws-ofi-nccl 1.7.1-aws
    # ip-172-31-27-205:6427:6820 [0] NCCL INFO NET/OFI Using CUDA runtime version 11060

    # cudaDriverVersion 12020  --> This is max supported cuda version by nvidia driver
    # NCCL version 2.16.2+cuda11.8 --> This is NCCL version compiled with cuda version
    # Using CUDA runtime version 11060 --> This is selected cuda version

    # Validation of logs
    grep "NET/OFI Using CUDA runtime version ${CUDA_RUNTIME_VERSION}" ${TRAINING_LOG} || { echo "Runtime cuda text not found"; exit 1; }
    grep "NET/OFI Initializing aws-ofi-nccl" ${TRAINING_LOG} || { echo "aws-ofi-nccl is not working, please check if it is installed correctly"; exit 1; }
    grep "NET/OFI Configuring AWS-specific options" ${TRAINING_LOG} || { echo "AWS-specific options text not found"; exit 1; } 
    grep "Using network AWS Libfabric" ${TRAINING_LOG} || { echo "AWS Libfabric text not found"; exit 1; } 
    grep "busbw" ${TRAINING_LOG} || { echo "busbw text not found"; exit 1; } 
    grep "Avg bus bandwidth " ${TRAINING_LOG} || { echo "Avg bus bandwidth text not found"; exit 1; } 
    grep "NCCL version $NCCL_VERSION" ${TRAINING_LOG} || { echo "Text not found: NCCL version $NCCL_VERSION"; exit 1; }

    if [[ ${INSTANCE_TYPE} == "p4d.24xlarge" ]]; then
        grep "NET/AWS Libfabric/0/GDRDMA" ${TRAINING_LOG} || { echo "Text not found: NET/AWS Libfabric/0/GDRDMA"; exit 1; }  
        grep "NET/OFI Selected Provider is efa (found 4 nics)" ${TRAINING_LOG} || { echo "Selected Provider is efa text not found"; exit 1; }  
        grep "aws-ofi-nccl/xml/p4d-24xl-topo.xml" ${TRAINING_LOG} || { echo "Topology file not found"; exit 1; }      
    elif [[ ${INSTANCE_TYPE} == "p4de.24xlarge" ]]; then
        grep "NET/AWS Libfabric/0/GDRDMA" ${TRAINING_LOG} || { echo "Avg bus bandwidth text not found"; exit 1; }
        grep "NET/OFI Selected Provider is efa (found 4 nics)" ${TRAINING_LOG} || { echo "Avg bus bandwidth text not found"; exit 1; }
        grep "aws-ofi-nccl/xml/p4de-24xl-topo.xml" ${TRAINING_LOG} || { echo "Topology file not found"; exit 1; }  
    elif [[ ${INSTANCE_TYPE} == "p5.48xlarge" ]]; then
        grep "NET/AWS Libfabric/0/GDRDMA" ${TRAINING_LOG} || { echo "Avg bus bandwidth text not found"; exit 1; }
        grep "NET/OFI Selected Provider is efa (found 32 nics)" ${TRAINING_LOG} || { echo "Avg bus bandwidth text not found"; exit 1; }
        grep "aws-ofi-nccl/xml/p5.48xl-topo.xml" ${TRAINING_LOG} || { echo "Topology file not found"; exit 1; }  
    elif [[ ${INSTANCE_TYPE} == "p3dn.24xlarge" ]]; then
        grep "NET/OFI Selected Provider is efa (found 4 nics)" ${TRAINING_LOG} || { echo "Selected Provider is efa text not found"; exit 1; }  
    fi
    echo "***************************** check_efa_nccl_all_reduce passed for cuda version ${CUDA_VERSION} *****************************"
else
    echo "***************************** check_efa_nccl_all_reduce failed for cuda version ${CUDA_VERSION} *****************************"
fi

벤치마크 데이터에 액세스하려면 다중 노드 all_reduce 테스트에서 테이블 출력의 마지막 행을 구문 분석할 수 있습니다.


benchmark=$(sudo cat ${TRAINING_LOG} | grep '1073741824' | tail -n1 | awk -F " " '{{print $12}}' | sed 's/ //' | sed  's/  5e-07//')
if [[ -z "${benchmark}" ]]; then
  echo "benchmark variable is empty"
  exit 1
fi

echo "Benchmark throughput: ${benchmark}"

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

AWS Deep Learning AMIs 인스턴스 시작

GPU 모니터링 및 최적화