Uso do EFA na DLAMI

A seção a seguir descreve como usar o EFA para executar aplicativos de vários nós na AWS Deep Learning AMI.

Como executar aplicativos de vários nós com o EFA

Para executar um aplicativo em um cluster de nós, é necessária a seguinte configuração:

Tópicos

Permitir SSH sem senha
Criar arquivo de hosts
Testes NCCL

Permitir SSH sem senha

Selecione um nó no cluster como o nó líder. Os nós restantes são referidos como nós membros.

No nó líder, gere o par de chaves RSA.


ssh-keygen -t rsa -N "" -f ~/.ssh/id_rsa

Altere as permissões da chave privada no nó líder.
```
chmod 600 ~/.ssh/id_rsa
```
Copie ~/.ssh/id_rsa.pub a chave pública e anexe-a aos nós membros ~/.ssh/authorized_keys do cluster.
Agora, você poderá fazer login diretamente nos nós membros a partir do nó líder usando o ip privado.
```
ssh <member private ip>
```
Desative a strictHostKey verificação e habilite o encaminhamento de agentes no nó principal adicionando o seguinte ao arquivo ~/.ssh/config no nó líder:
```
Host *
    ForwardAgent yes
Host *
    StrictHostKeyChecking no
```
Nas instâncias do Amazon Linux 2, execute o seguinte comando no nó líder para fornecer as permissões corretas ao arquivo de configuração:
```
chmod 600 ~/.ssh/config
```

Criar arquivo de hosts

No nó líder, crie um arquivo de hosts para identificar os nós no cluster. O arquivo de hosts deve ter uma entrada para cada nó no cluster. Crie um arquivo ~/hosts e adicione cada nó usando o ip privado da seguinte forma:


localhost slots=8
<private ip of node 1> slots=8
<private ip of node 2> slots=8

Testes NCCL

nota

Esses testes foram executados usando o EFA versão 1.30.0 e o OFI NCCL Plugin 1.7.4.

Abaixo está listado um subconjunto de testes NCCL fornecidos pela Nvidia para testar a funcionalidade e o desempenho em vários nós de computação

Instâncias suportadas: P3dn, P4, P5

Teste de vários nós de transferência de mensagens NCCL

O nccl_message_transfer é um teste simples para garantir que o plug-in OFI NCCL esteja funcionando como esperado. O teste valida a funcionalidade das APIs de estabelecimento de conexão e transferência de dados do NCCL. Use o caminho completo para mpirun como mostrado no exemplo ao executar aplicativos NCCL com o EFA. Altere os parâmetros np e N com base no número de instâncias e GPUs em seu cluster. Para obter mais informações, consulte a Documentação do AWS OFI NCCL.

O seguinte teste nccl_message_transfer é para a versão genérica do CUDA xx.x. Você pode executar os comandos para qualquer versão do CUDA disponível em sua instância do Amazon EC2 substituindo a versão do CUDA no script.


$/opt/amazon/openmpi/bin/mpirun -n 2 -N 1 --hostfile hosts \
-x LD_LIBRARY_PATH=/usr/local/cuda-xx.x/efa/lib:/usr/local/cuda-xx.x/lib:/usr/local/cuda-xx.x/lib64:/usr/local/cuda-xx.x:$LD_LIBRARY_PATH \
--mca btl tcp,self --mca btl_tcp_if_exclude lo,docker0 --bind-to none \
opt/aws-ofi-nccl/tests/nccl_message_transfer

A saída será semelhante a: É possível verificar a saída para ver se o EFA está sendo usado como o provedor de OFI.


INFO: Function: nccl_net_ofi_init Line: 1069: NET/OFI Selected Provider is efa (found 4 nics)
INFO: Function: nccl_net_ofi_init Line: 1160: NET/OFI Using transport protocol SENDRECV
INFO: Function: configure_ep_inorder Line: 261: NET/OFI Setting FI_OPT_EFA_SENDRECV_IN_ORDER_ALIGNED_128_BYTES not supported.
INFO: Function: configure_nccl_proto Line: 227: NET/OFI Setting NCCL_PROTO to "simple"
INFO: Function: main Line: 86: NET/OFI Process rank 1 started. NCCLNet device used on ip-172-31-13-179 is AWS Libfabric.
INFO: Function: main Line: 91: NET/OFI Received 4 network devices
INFO: Function: main Line: 111: NET/OFI Network supports communication using CUDA buffers. Dev: 3
INFO: Function: main Line: 118: NET/OFI Server: Listening on dev 3
INFO: Function: main Line: 131: NET/OFI Send connection request to rank 1
INFO: Function: main Line: 173: NET/OFI Send connection request to rank 0
INFO: Function: main Line: 137: NET/OFI Server: Start accepting requests
INFO: Function: main Line: 141: NET/OFI Successfully accepted connection from rank 1
INFO: Function: main Line: 145: NET/OFI Send 8 requests to rank 1
INFO: Function: main Line: 179: NET/OFI Server: Start accepting requests
INFO: Function: main Line: 183: NET/OFI Successfully accepted connection from rank 0
INFO: Function: main Line: 187: NET/OFI Rank 1 posting 8 receive buffers
INFO: Function: main Line: 161: NET/OFI Successfully sent 8 requests to rank 1
INFO: Function: main Line: 251: NET/OFI Got completions for 8 requests for rank 0
INFO: Function: main Line: 251: NET/OFI Got completions for 8 requests for rank 1

Teste de desempenho de vários nós do NCCL em P4d.24xlarge

Para verificar o desempenho do NCCL com o EFA, execute o teste de desempenho do NCCL padrão que está disponível no NCCL-Tests Repo. O DLAMI vem com esse teste já criado para CUDA XX.X. Você também pode executar seu próprio script com o EFA.

Ao criar seu próprio script, consulte as seguintes orientações:

Use o caminho completo para mpirun como mostrado no exemplo ao executar aplicativos NCCL com o EFA.
Altere os parâmetros np e N com base no número de instâncias e GPUs em seu cluster.
Adicione o sinalizador NCCL_DEBUG=INFO e verifique se os logs indicam o uso do EFA como “O provedor selecionado é EFA”.
Defina o local do registro de treinamento a ser analisado para validação
```
TRAINING_LOG="testEFA_$(date +"%N").log"
```

Use o comando watch nvidia-smi em qualquer um dos nós membros para monitorar o uso da GPU. Os comandos watch nvidia-smi a seguir são para o CUDA versão xx.x e dependem do sistema operacional da instância. Você pode executar os comandos para qualquer versão do CUDA disponível em sua instância do Amazon EC2 substituindo a versão do CUDA no script.

Amazon Linux 2:


 $ /opt/amazon/openmpi/bin/mpirun -n 16 -N 8 \
-x NCCL_DEBUG=INFO -x --mca pml ^cm \
-x LD_LIBRARY_PATH=/usr/local/cuda-xx.x/efa/lib:/usr/local/cuda-xx.x/lib:/usr/local/cuda-xx.x/lib64:/usr/local/cuda-xx.x:/opt/amazon/efa/lib64:/opt/amazon/openmpi/lib64:$LD_LIBRARY_PATH \
--hostfile hosts --mca btl tcp,self --mca btl_tcp_if_exclude lo,docker0 --bind-to none \
/usr/local/cuda-xx.x/efa/test-cuda-xx.x/all_reduce_perf -x NCCL_PROTO=simple -b 8 -e 1G -f 2 -g 1 -c 1 -n 100 | tee ${TRAINING_LOG}

Ubuntu 20.04:


$ /opt/amazon/openmpi/bin/mpirun -n 16 -N 8 \
-x NCCL_DEBUG=INFO -x --mca pml ^cm \
-x LD_LIBRARY_PATH=/usr/local/cuda-xx.x/efa/lib:/usr/local/cuda-xx.x/lib:/usr/local/cuda-xx.x/lib64:/usr/local/cuda-xx.x:/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:$LD_LIBRARY_PATH \
--hostfile hosts --mca btl tcp,self --mca btl_tcp_if_exclude lo,docker0 --bind-to none \
/usr/local/cuda-xx.x/efa/test-cuda-xx.x/all_reduce_perf -x NCCL_PROTO=simple-b 8 -e 1G -f 2 -g 1 -c 1 -n 100 | tee ${TRAINING_LOG}

A saída será semelhante a:


# nThread 1 nGpus 1 minBytes 8 maxBytes 1073741824 step: 2(factor) warmup iters: 5 iters: 100 agg iters: 1 validation: 1 graph: 0
#
# Using devices
#  Rank  0 Group  0 Pid   9591 on ip-172-31-4-37 device  0 [0x10] NVIDIA A100-SXM4-40GB
#  Rank  1 Group  0 Pid   9592 on ip-172-31-4-37 device  1 [0x10] NVIDIA A100-SXM4-40GB
#  Rank  2 Group  0 Pid   9593 on ip-172-31-4-37 device  2 [0x20] NVIDIA A100-SXM4-40GB
#  Rank  3 Group  0 Pid   9594 on ip-172-31-4-37 device  3 [0x20] NVIDIA A100-SXM4-40GB
#  Rank  4 Group  0 Pid   9595 on ip-172-31-4-37 device  4 [0x90] NVIDIA A100-SXM4-40GB
#  Rank  5 Group  0 Pid   9596 on ip-172-31-4-37 device  5 [0x90] NVIDIA A100-SXM4-40GB
#  Rank  6 Group  0 Pid   9597 on ip-172-31-4-37 device  6 [0xa0] NVIDIA A100-SXM4-40GB
#  Rank  7 Group  0 Pid   9598 on ip-172-31-4-37 device  7 [0xa0] NVIDIA A100-SXM4-40GB
#  Rank  8 Group  0 Pid  10216 on ip-172-31-13-179 device  0 [0x10] NVIDIA A100-SXM4-40GB
#  Rank  9 Group  0 Pid  10217 on ip-172-31-13-179 device  1 [0x10] NVIDIA A100-SXM4-40GB
#  Rank 10 Group  0 Pid  10218 on ip-172-31-13-179 device  2 [0x20] NVIDIA A100-SXM4-40GB
#  Rank 11 Group  0 Pid  10219 on ip-172-31-13-179 device  3 [0x20] NVIDIA A100-SXM4-40GB
#  Rank 12 Group  0 Pid  10220 on ip-172-31-13-179 device  4 [0x90] NVIDIA A100-SXM4-40GB
#  Rank 13 Group  0 Pid  10221 on ip-172-31-13-179 device  5 [0x90] NVIDIA A100-SXM4-40GB
#  Rank 14 Group  0 Pid  10222 on ip-172-31-13-179 device  6 [0xa0] NVIDIA A100-SXM4-40GB
#  Rank 15 Group  0 Pid  10223 on ip-172-31-13-179 device  7 [0xa0] NVIDIA A100-SXM4-40GB
ip-172-31-4-37:9591:9591 [0] NCCL INFO Bootstrap : Using ens32:172.31.4.37
ip-172-31-4-37:9591:9591 [0] NCCL INFO NET/Plugin: Failed to find ncclCollNetPlugin_v6 symbol.
ip-172-31-4-37:9591:9591 [0] NCCL INFO NET/Plugin: Failed to find ncclCollNetPlugin symbol (v4 or v5).
ip-172-31-4-37:9591:9591 [0] NCCL INFO cudaDriverVersion 12020
NCCL version 2.18.5+cuda12.2
...
ip-172-31-4-37:9024:9062 [6] NCCL INFO NET/OFI Initializing aws-ofi-nccl 1.7.4-aws
ip-172-31-4-37:9020:9063 [2] NCCL INFO NET/OFI Using CUDA runtime version 11070
ip-172-31-4-37:9020:9063 [2] NCCL INFO NET/OFI Configuring AWS-specific options
ip-172-31-4-37:9024:9062 [6] NCCL INFO NET/OFI Using CUDA runtime version 11070
ip-172-31-4-37:9024:9062 [6] NCCL INFO NET/OFI Configuring AWS-specific options
ip-172-31-4-37:9024:9062 [6] NCCL INFO NET/OFI Setting provider_filter to efa
ip-172-31-4-37:9024:9062 [6] NCCL INFO NET/OFI Setting FI_EFA_FORK_SAFE environment variable to 1
ip-172-31-4-37:9024:9062 [6] NCCL INFO NET/OFI Disabling NVLS support due to NCCL version 21602
ip-172-31-4-37:9020:9063 [2] NCCL INFO NET/OFI Setting provider_filter to efa
ip-172-31-4-37:9020:9063 [2] NCCL INFO NET/OFI Setting FI_EFA_FORK_SAFE environment variable to 1
ip-172-31-4-37:9020:9063 [2] NCCL INFO NET/OFI Disabling NVLS support due to NCCL version 21602
ip-172-31-4-37:9020:9063 [2] NCCL INFO NET/OFI Running on p4d.24xlarge platform, Setting NCCL_TOPO_FILE environment variable to /opt/aws-ofi-nccl/share/aws-ofi-nccl/xml/p4d-24xl-topo.xml
...
-----------------------------some output truncated-----------------------------------
#                                                              out-of-place                       in-place          
#       size         count      type   redop    root     time   algbw   busbw #wrong     time   algbw   busbw #wrong
#        (B)    (elements)                               (us)  (GB/s)  (GB/s)            (us)  (GB/s)  (GB/s)       
           0             0     float     sum      -1    11.02    0.00    0.00      0    11.04    0.00    0.00      0
           0             0     float     sum      -1    11.01    0.00    0.00      0    11.00    0.00    0.00      0
           0             0     float     sum      -1    11.02    0.00    0.00      0    11.02    0.00    0.00      0
           0             0     float     sum      -1    11.01    0.00    0.00      0    11.00    0.00    0.00      0
           0             0     float     sum      -1    11.02    0.00    0.00      0    11.02    0.00    0.00      0
         256             4     float     sum      -1    632.7    0.00    0.00      0    628.2    0.00    0.00      0
         512             8     float     sum      -1    627.4    0.00    0.00      0    629.6    0.00    0.00      0
        1024            16     float     sum      -1    632.2    0.00    0.00      0    631.7    0.00    0.00      0
        2048            32     float     sum      -1    631.0    0.00    0.00      0    634.2    0.00    0.00      0
        4096            64     float     sum      -1    623.3    0.01    0.01      0    633.6    0.01    0.01      0
        8192           128     float     sum      -1    635.1    0.01    0.01      0    633.5    0.01    0.01      0
       16384           256     float     sum      -1    634.8    0.03    0.02      0    637.0    0.03    0.02      0
       32768           512     float     sum      -1    647.9    0.05    0.05      0    636.8    0.05    0.05      0
       65536          1024     float     sum      -1    658.9    0.10    0.09      0    667.0    0.10    0.09      0
      131072          2048     float     sum      -1    671.9    0.20    0.18      0    662.9    0.20    0.19      0
      262144          4096     float     sum      -1    692.1    0.38    0.36      0    685.1    0.38    0.36      0
      524288          8192     float     sum      -1    715.3    0.73    0.69      0    696.6    0.75    0.71      0
     1048576         16384     float     sum      -1    734.6    1.43    1.34      0    729.2    1.44    1.35      0
     2097152         32768     float     sum      -1    785.9    2.67    2.50      0    794.5    2.64    2.47      0
     4194304         65536     float     sum      -1    837.2    5.01    4.70      0    837.6    5.01    4.69      0
     8388608        131072     float     sum      -1    929.2    9.03    8.46      0    931.4    9.01    8.44      0
    16777216        262144     float     sum      -1   1773.6    9.46    8.87      0   1772.8    9.46    8.87      0
    33554432        524288     float     sum      -1   2110.2   15.90   14.91      0   2116.1   15.86   14.87      0
    67108864       1048576     float     sum      -1   2650.9   25.32   23.73      0   2658.1   25.25   23.67      0
   134217728       2097152     float     sum      -1   3943.1   34.04   31.91      0   3945.9   34.01   31.89      0
   268435456       4194304     float     sum      -1   7216.5   37.20   34.87      0   7178.6   37.39   35.06      0
   536870912       8388608     float     sum      -1    13680   39.24   36.79      0    13676   39.26   36.80      0
[  1073741824      16777216    float     sum      -1    25645   41.87   39.25      0    25497   42.11   39.48      0 ] <- Used For Benchmark
...
# Out of bounds values : 0 OK
# Avg bus bandwidth    : 7.46044

Para validar se os testes EFA retornaram um resultado válido, use os seguintes testes para confirmar:

Obtenha o tipo de instância usando os metadados de instância do EC2:


TOKEN=$(curl -X PUT "http://169.254.169.254/latest/api/token" -H "X-aws-ec2-metadata-token-ttl-seconds: 21600")
INSTANCE_TYPE=$(curl -H "X-aws-ec2-metadata-token: $TOKEN" -v http://169.254.169.254/latest/meta-data/instance-type)

Execute a Testes de desempenho

Defina os seguintes parâmetros


CUDA_VERSION
CUDA_RUNTIME_VERSION
NCCL_VERSION

Valide os resultados conforme mostrado:


RETURN_VAL=`echo $?`
if [ ${RETURN_VAL} -eq 0 ]; then

    # Information on how the version come from logs
    # 
    # ip-172-31-27-205:6427:6427 [0] NCCL INFO cudaDriverVersion 12020
    # NCCL version 2.16.2+cuda11.8
    # ip-172-31-27-205:6427:6820 [0] NCCL INFO NET/OFI Initializing aws-ofi-nccl 1.7.1-aws
    # ip-172-31-27-205:6427:6820 [0] NCCL INFO NET/OFI Using CUDA runtime version 11060

    # cudaDriverVersion 12020  --> This is max supported cuda version by nvidia driver
    # NCCL version 2.16.2+cuda11.8 --> This is NCCL version compiled with cuda version
    # Using CUDA runtime version 11060 --> This is selected cuda version

    # Validation of logs
    grep "NET/OFI Using CUDA runtime version ${CUDA_RUNTIME_VERSION}" ${TRAINING_LOG} || { echo "Runtime cuda text not found"; exit 1; }
    grep "NET/OFI Initializing aws-ofi-nccl" ${TRAINING_LOG} || { echo "aws-ofi-nccl is not working, please check if it is installed correctly"; exit 1; }
    grep "NET/OFI Configuring AWS-specific options" ${TRAINING_LOG} || { echo "AWS-specific options text not found"; exit 1; } 
    grep "Using network AWS Libfabric" ${TRAINING_LOG} || { echo "AWS Libfabric text not found"; exit 1; } 
    grep "busbw" ${TRAINING_LOG} || { echo "busbw text not found"; exit 1; } 
    grep "Avg bus bandwidth " ${TRAINING_LOG} || { echo "Avg bus bandwidth text not found"; exit 1; } 
    grep "NCCL version $NCCL_VERSION" ${TRAINING_LOG} || { echo "Text not found: NCCL version $NCCL_VERSION"; exit 1; }

    if [[ ${INSTANCE_TYPE} == "p4d.24xlarge" ]]; then
        grep "NET/AWS Libfabric/0/GDRDMA" ${TRAINING_LOG} || { echo "Text not found: NET/AWS Libfabric/0/GDRDMA"; exit 1; }  
        grep "NET/OFI Selected Provider is efa (found 4 nics)" ${TRAINING_LOG} || { echo "Selected Provider is efa text not found"; exit 1; }  
        grep "aws-ofi-nccl/xml/p4d-24xl-topo.xml" ${TRAINING_LOG} || { echo "Topology file not found"; exit 1; }      
    elif [[ ${INSTANCE_TYPE} == "p4de.24xlarge" ]]; then
        grep "NET/AWS Libfabric/0/GDRDMA" ${TRAINING_LOG} || { echo "Avg bus bandwidth text not found"; exit 1; }
        grep "NET/OFI Selected Provider is efa (found 4 nics)" ${TRAINING_LOG} || { echo "Avg bus bandwidth text not found"; exit 1; }
        grep "aws-ofi-nccl/xml/p4de-24xl-topo.xml" ${TRAINING_LOG} || { echo "Topology file not found"; exit 1; }  
    elif [[ ${INSTANCE_TYPE} == "p5.48xlarge" ]]; then
        grep "NET/AWS Libfabric/0/GDRDMA" ${TRAINING_LOG} || { echo "Avg bus bandwidth text not found"; exit 1; }
        grep "NET/OFI Selected Provider is efa (found 32 nics)" ${TRAINING_LOG} || { echo "Avg bus bandwidth text not found"; exit 1; }
        grep "aws-ofi-nccl/xml/p5.48xl-topo.xml" ${TRAINING_LOG} || { echo "Topology file not found"; exit 1; }  
    elif [[ ${INSTANCE_TYPE} == "p3dn.24xlarge" ]]; then
        grep "NET/OFI Selected Provider is efa (found 4 nics)" ${TRAINING_LOG} || { echo "Selected Provider is efa text not found"; exit 1; }  
    fi
    echo "***************************** check_efa_nccl_all_reduce passed for cuda version ${CUDA_VERSION} *****************************"
else
    echo "***************************** check_efa_nccl_all_reduce failed for cuda version ${CUDA_VERSION} *****************************"
fi

Para acessar os dados do benchmark, podemos analisar a linha final da saída da tabela do teste Multi Node all_reduce:


benchmark=$(sudo cat ${TRAINING_LOG} | grep '1073741824' | tail -n1 | awk -F " " '{{print $12}}' | sed 's/ //' | sed  's/  5e-07//')
if [[ -z "${benchmark}" ]]; then
  echo "benchmark variable is empty"
  exit 1
fi

echo "Benchmark throughput: ${benchmark}"

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Lançamento de uma AWS Deep Learning AMI instância

Monitoramento e otimização de GPU