Tipos de instancias con EFA Interfaces EFA y solo de EFA Requisitos previos Crear un grupo de nodos (Opcional) Prueba del rendimiento de EFA

Impartición de formación en machine learning en Amazon EKS con Elastic Fabric Adapter

En este tema se describe cómo integrar Elastic Fabric Adapter (EFA) con los pods implementados en el clúster de Amazon EKS. Elastic Fabric Adapter (EFA) es una interfaz de red para instancias de Amazon EC2 que le permite ejecutar aplicaciones que requieren altos niveles de comunicaciones entre nodos a escala en AWS. Su interfaz de hardware de bypass del sistema operativo diseñada a medida mejora el rendimiento de las comunicaciones entre instancias, lo que es fundamental para ajustar la escala de estas aplicaciones. Con EFA, las aplicaciones de High Performance Computing (HPC, informática de alto rendimiento) que utilizan la Message Passing Interface (MPI, interfaz de paso de mensajes) y las aplicaciones de Machine Learning (ML) que utilizan NVIDIA Collective Communications Library (NCCL, Biblioteca de comunicación colectiva de NVIDIA) pueden aumentar su escala a miles de CPU o GPU. Como resultado, obtiene el rendimiento de las aplicaciones de los clústeres HPC en las instalaciones con la elasticidad y flexibilidad bajo demanda de la nube de AWS. La integración de Elastic Fabric Adapter (EFA) con aplicaciones que se ejecutan en clústeres de Amazon EKS puede reducir el tiempo necesario para completar cargas de trabajo de formación distribuidas a gran escala sin tener que agregar instancias adicionales al clúster. Para obtener más información sobre EFA, consulte Elastic Fabric Adapter.

Tipos de instancias con EFA

El complemento de dispositivos de Kubernetes para AWS EFA es compatible con todos los tipos de instancias de Amazon EC2 que tienen EFA. Para obtener una lista de los tipos de instancia que tienen EFA, consulte Tipos de instancias admitidos en la Guía del usuario de Amazon EC2. Sin embargo, para ejecutar rápidamente aplicaciones de ML, recomendamos que una instancia tenga chips de aceleración de hardware, como GPU de Nvidia, chips de AWS Inferentia o AWS Trainium, además de EFA. Para ver una lista de los tipos de instancias que tienen chips de aceleración de hardware y EFA, consulte Computación acelerada en la Guía del usuario de Amazon EC2.

Al comparar los tipos de instancias con el fin elegir entre ellos, tenga en cuenta la cantidad de tarjetas de red de EFA disponibles para cada uno, así como la cantidad de tarjetas de acelerador, de CPU y de memoria. Puede asignar hasta un EFA por tarjeta de red. Un EFA cuenta como una interfaz de red. Para ver cuántos EFA están disponibles para cada tipo de instancia que tiene EFA, consulte la lista de tarjetas de red en la Guía del usuario de Amazon EC2.

Interfaces EFA y solo de EFA

Un Elastic Fabric Adapter (EFA) es una interfaz de red que combina las capacidades de un Elastic Network Adapter (ENA) y una interfaz OS-Bypass, con tecnología del protocolo AWS Scalable Reliable Datagram (SRD). Las funcionalidades de EFA permiten que las aplicaciones se comuniquen directamente con el hardware para un transporte de baja latencia. Puede optar por acceder únicamente a las capacidades de EFA mediante interfaces solo de EFA, lo que limita la comunicación a las interfaces que se encuentran dentro de la misma zona de disponibilidad.

Para crear nodos que puedan tener interfaces solo de EFA, debe utilizar una plantilla de lanzamiento de EC2 personalizada y establecer el InterfaceType en efa-only. En su plantilla de lanzamiento personalizada, no puede configurar la tarjeta de red 0 en una interfaz solo de EFA, ya que es la tarjeta de red principal y la interfaz de red de la instancia de EC2. Debe disponer de la versión 1.18.5 o posterior de VPC CNI para las interfaces exclusivas de EFA. Si utiliza Amazon Linux 2, la versión de la AMI debe ser v20240928 o posterior para las interfaces exclusivas de EFA.

El siguiente procedimiento lo guiará para crear un clúster de EKS con eksctl con nodos que tengan GPU de Nvidia e interfaces de EFA. No se puede utilizar eksctl para crear nodos y grupos de nodos que utilicen interfaces solo de EFA.

Requisitos previos

Un clúster existente de Amazon EKS. Si no tiene ningún clúster existente, cree uno con Introducción a Amazon EKS. El clúster debe implementarse en una VPC que tenga al menos una subred privada con suficientes direcciones IP disponibles para implementar nodos en ella. La subred privada debe tener acceso a Internet saliente proporcionado por un dispositivo externo, como una puerta de enlace NAT.

Si planea usar eksctl para crear su grupo de nodos, eksctl también puede crear un clúster.
La versión 2.12.3 o posterior, o bien, la versión 1.27.160 o posterior de la AWS interfaz de la línea de comandos (AWS CLI) instalada y configurada en su dispositivo o AWS CloudShell. Para comprobar su versión actual, utilice aws --version | cut -d / -f2 | cut -d ' ' -f1. Los administradores de paquetes, como yum, apt-get o Homebrew para macOS, suelen estar atrasados varias versiones respecto de la versión de la AWS CLI más reciente. Para instalar la versión más reciente, consulte Instalación y Configuración rápida con aws configure en la Guía del usuario de la interfaz de la línea de comandos de AWS. La versión de AWS CLI instalada en AWS CloudShell también puede estar atrasada varias versiones respecto de la versión más reciente. Para actualizarla, consulte Instalación de la CLI de AWS en su directorio principal en la Guía del usuario de AWS CloudShell.
La herramienta de línea de comandos de kubectl está instalada en su dispositivo o AWS CloudShell. La versión puede ser la misma o hasta una versión secundaria anterior o posterior a la versión de Kubernetes de su clúster. Por ejemplo, si la versión del clúster es 1.29, puede usar la versión 1.28, 1.29 o 1.30 de kubectl con él. Para instalar o actualizar kubectl, consulte Configuración de kubectl y eksctl.
Debe tener instalada la versión 1.7.10 o una posterior del complemento CNI de Amazon VPC para Kubernetes antes de lanzar nodos de trabajo que admitan varios Elastic Fabric Adapters, como p4d o p5. Para obtener más información sobre cómo actualizar la versión del complemento CNI de Amazon VPC para Kubernetes, consulte Asignación de direcciones IP a pods con CNI de Amazon VPC.
Para las instancias p6-b200, debe utilizar la versión v0.5.6 o posterior del complemento del dispositivo de EFA.

importante

Una consideración importante que se requiere para adoptar EFA con Kubernetes es configurar y administrar Huge Pages como un recurso en el clúster. Para obtener más información, consulte Administración de Huge Pages en la documentación de Kubernetes. Las instancias de Amazon EC2 con el controlador de EFA instalado preasignan 5128 páginas de gran tamaño de 2 MiB, que puede solicitar como recursos para utilizar en sus especificaciones de trabajo.

Crear un grupo de nodos

El procedimiento siguiente ayuda a crear un grupo de nodos con un grupo de nodos con respaldo de p4d.24xlarge con interfaces EFA y RDMA GPUDirect. También lo ayuda a ejecutar una prueba de ejemplo de NVIDIA Collective Communications Library (NCCL) para descubrir el rendimiento NCCL de varios nodos mediante el uso de EFA. El ejemplo se puede utilizar en una plantilla para la formación de aprendizaje profundo distribuida en Amazon EKS mediante EFA.

Determine qué tipos de instancias de Amazon EC2 compatibles con EFA están disponibles en la región de AWS en la que desea implementar los nodos. Sustituya region-code por la región de AWS en la que desea implementar el grupo de nodos.
```
aws ec2 describe-instance-types --region region-code \
    --filters Name=network-info.efa-supported,Values=true \
    --query "InstanceTypes[*].[InstanceType]" --output text
```
Al implementar nodos, el tipo de instancia que desea implementar debe estar disponible en la región de AWS en la que está su clúster.
Determine en qué zonas de disponibilidad está disponible el tipo de instancia que desea implementar. En este tutorial, el tipo de instancia p5.48xlarge se utiliza y se debe devolver en la salida de la región de AWS que especificó en el paso anterior. Cuando implemente nodos en un clúster de producción, sustituya p5.48xlarge con cualquier tipo de instancia que se devolvió en el paso anterior.
```
aws ec2 describe-instance-type-offerings --region region-code \
    --location-type availability-zone --filters Name=instance-type,Values=p4d.24xlarge,p5.48xlarge \
    --query 'InstanceTypeOfferings[*].Location' --output text
```
Un ejemplo de salida sería el siguiente.
```
us-west-2a    us-west-2c    us-west-2b
```
Tenga en cuenta las zonas de disponibilidad devueltas para su uso en pasos posteriores. Al implementar nodos en un clúster, la VPC debe tener subredes con direcciones IP disponibles en una de las zonas de disponibilidad que se muestran en el resultado.
Cree un grupo de nodos mediante eksctl. Necesita tener la versión 0.210.0 o posterior de la herramienta de línea de comandos eksctl instalada en su dispositivo o AWS CloudShell. Para instalar o actualizar eksctl, consulte la sección de Instalación en la documentación de eksctl.
1. Copie el siguiente contenido en un archivo denominado efa-cluster.yaml. Sustituya los valores de ejemplo por sus propios valores. Puede reemplazar p5.48xlarge por una instancia diferente, pero si lo hace, asegúrese de que los valores de availabilityZones sean zonas de disponibilidad que se devolvieron para el tipo de instancia en el paso uno.
```
apiVersion: eksctl.io/v1alpha5
kind: ClusterConfig

metadata:
  name: my-efa-cluster
  region: region-code
  version: "1.XX"

iam:
  withOIDC: true

availabilityZones: ["us-west-2a", "us-west-2c"]

managedNodeGroups:
  - name: my-efa-ng
    instanceType: p5.48xlarge
    minSize: 1
    desiredCapacity: 2
    maxSize: 3
    availabilityZones: ["us-west-2a"]
    volumeSize: 300
    privateNetworking: true
    efaEnabled: true
```
2. Cree un grupo de nodos administrados en un clúster existente.
```
eksctl create nodegroup -f efa-cluster.yaml
```
  Si no dispone de un clúster existente, puede ejecutar el siguiente comando para crear un clúster y el grupo de nodos.
```
eksctl create cluster -f efa-cluster.yaml
```
  nota
  Como el tipo de instancia que se usa en este ejemplo tiene GPU, eksctl instala automáticamente el complemento del dispositivo de NVIDIA de Kubernetes en cada instancia cuando se usa Amazon Linux 2. Esto no es necesario para Bottlerocket, ya que el complemento del dispositivo NVIDIA está integrado en la variante de NVIDIA de EKS de Bottlerocket. Cuando efaEnabled se establece como true en la configuración del grupo de nodos, eksctl también implementará automáticamente el complemento del dispositivo de EFA en los nodos.

Uso de Bottlerocket con EFA

La versión 1.28.0 y posteriores de la AMI de Bottlerocket incluyen soporte oficial para EFA. Para usar Bottlerocket en nodos compatibles con EFA, especifique amiFamily: Bottlerocket en su configuración. Si necesita usar un ID de AMI personalizado, debe usar nodeGroups estándar en lugar de managedNodeGroups.

A continuación se muestra un ejemplo de configuración:


apiVersion: eksctl.io/v1alpha5
kind: ClusterConfig

metadata:
  name: my-efa-bottlerocket-cluster
  region: region-code
  version: "1.XX"

iam:
  withOIDC: true

availabilityZones: ["us-west-2a", "us-west-2c"]

managedNodeGroups:
  - name: my-efa-bottlerocket-ng
    instanceType: p5.48xlarge
    minSize: 1
    desiredCapacity: 2
    maxSize: 3
    availabilityZones: ["us-west-2a"]
    volumeSize: 300
    privateNetworking: true
    efaEnabled: true
    amiFamily: Bottlerocket
    bottlerocket:
      enableAdminContainer: true
      settings:
        kernel:
          sysctl:
            "vm.nr_hugepages": "3000"  # Configures 3000 * 2Mi = 6000Mi hugepages

La configuración de sysctl vm.nr_hugepages anterior configura el número de 2 Mi de páginas de gran tamaño. En este ejemplo, 3000 significa 3000 * 2 Mi = 6000 Mi de páginas de gran tamaño.

Verificación de la instalación del complemento del dispositivo de EFA

Al crear un grupo de nodos con efaEnabled: true, eksctl implementa automáticamente el complemento del dispositivo de EFA de Kubernetes. Puede verificar que el complemento del dispositivo está instalado y funciona correctamente:

Compruebe el estado del DaemonSet:


kubectl get daemonsets -n kube-system

Resultado de ejemplo:


NAME                                  DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
aws-efa-k8s-device-plugin-daemonset   2         2         2       2            2           <none>          6m16s
...

Aquí, el DaemonSet del complemento del dispositivo de EFA se ejecuta en dos nodos. El estado de ambos es LISTO y DISPONIBLE.

A continuación, verifique los pods creados por el DaemonSet:


kubectl get pods -n kube-system -l name=aws-efa-k8s-device-plugin

Resultado de ejemplo:


NAME                                        READY   STATUS    RESTARTS   AGE
aws-efa-k8s-device-plugin-daemonset-d68bs   1/1     Running   0          6m16s
aws-efa-k8s-device-plugin-daemonset-w4l8t   1/1     Running   0          6m16s

El estado de los pods del complemento del dispositivo de EFA es En ejecución, lo que confirma que el complemento se ha implementado y está funcionando correctamente.

Verifique el registro de recursos:

Para confirmar que el recurso vpc.amazonaws.com/efa está registrado en el kubelet, puede describir los nodos:
```
kubectl describe nodes
```
Si el recurso de EFA está registrado correctamente, lo verá enumerado bajo los recursos Capacidad y Asignable del nodo. Por ejemplo:
```
Capacity:
  ...
  vpc.amazonaws.com/efa:  4
Allocatable:
  ...
  vpc.amazonaws.com/efa:  4
```
Esta salida confirma que el nodo reconoce el recurso de EFA, que se pone a disposición de los pods que lo soliciten.

(Opcional) Prueba del rendimiento de EFA

Es recomendable que pruebe la configuración de EFA. Puede usar las pruebas de NCCL en el repositorio aws-samples/awsome-distributed-training de GitHub. Las pruebas de NCCL evalúan el rendimiento de la red mediante Nvidia Collective Communication Library. Los siguientes pasos envían las pruebas de NCCL en Amazon EKS.

Implementar el operador MPI de Kubeflow:

Para las pruebas NCCL puede aplicar el operador MPI de Kubeflow. El operador Message Passing Interface (MPI, interfaz de paso de mensajes) facilita la ejecución de la formación distribuida de estilo AllReduce en Kubernetes. Para obtener más información, consulte Operador de MPI en GitHub.

Ejecutar la prueba de rendimiento NCCL de varios nodos para verificar GPUDirectRDMA/EFA:

Para verificar el rendimiento de NCCL con GPUDirectRDMA sobre EFA, ejecute la prueba de rendimiento de NCCL estándar. Para obtener más información, consulte el repositorio oficial Pruebas de NCCL en GitHub.

Complete los pasos que se indican a continuación para ejecutar una prueba de rendimiento de NCCL de dos nodos. En el trabajo de prueba de NCCL de ejemplo, cada trabajo solicita ocho GPU, 5210 Mi de hugepages-2Mi, cuatro EFA y 8000 Mi de memoria, lo que significa que cada trabajo consume todos los recursos de una instancia p5.48xlarge.

Cree el manifiesto MPIJob:

Copie lo siguiente en un archivo denominado nccl-tests.yaml:


apiVersion: kubeflow.org/v2beta1
kind: MPIJob
metadata:
  name: nccl-tests
spec:
  runPolicy:
    cleanPodPolicy: Running
    backoffLimit: 20
  slotsPerWorker: 8
  mpiReplicaSpecs:
    Launcher:
      replicas: 1
      template:
         spec:
          restartPolicy: OnFailure
          containers:
          - image: public.ecr.aws/hpc-cloud/nccl-tests:latest
            imagePullPolicy: IfNotPresent
            name: test-nccl-launcher
            env:
             - name: PATH
               value: $PATH:/opt/amazon/efa/bin:/usr/bin
             - name: LD_LIBRARY_PATH
               value: /opt/amazon/openmpi/lib:/opt/nccl/build/lib:/opt/amazon/efa/lib:/opt/aws-ofi-nccl/install/lib:/usr/local/nvidia/lib:$LD_LIBRARY_PATH
             - name: NCCL_DEBUG
               value: INFO
             - name: NCCL_BUFFSIZE
               value: '8388608'
             - name: NCCL_P2P_NET_CHUNKSIZE
               value: '524288'
             - name: NCCL_TUNER_PLUGIN
               value: /opt/aws-ofi-nccl/install/lib/libnccl-ofi-tuner.so
            command:
            - /opt/amazon/openmpi/bin/mpirun
            - --allow-run-as-root
            - --tag-output
            - -np
            - "16"
            - -N
            - "8"
            - --bind-to
            - none
            - -x
            - PATH
            - -x
            - LD_LIBRARY_PATH
            - -x
            - NCCL_DEBUG=INFO
            - -x
            - NCCL_BUFFSIZE
            - -x
            - NCCL_P2P_NET_CHUNKSIZE
            - -x
            - NCCL_TUNER_PLUGIN
            - --mca
            - pml
            - ^cm,ucx
            - --mca
            - btl
            - tcp,self
            - --mca
            - btl_tcp_if_exclude
            - lo,docker0,veth_def_agent
            - /opt/nccl-tests/build/all_reduce_perf
            - -b
            - "8"
            - -e
            - "16G"
            - -f
            - "2"
            - -g
            - "1"
            - -c
            - "1"
            - -n
            - "100"
    Worker:
      replicas: 2
      template:
        spec:
          nodeSelector:
            node.kubernetes.io/instance-type: "p5.48xlarge"
          containers:
          - image: public.ecr.aws/hpc-cloud/nccl-tests:latest
            imagePullPolicy: IfNotPresent
            name: nccl-tests-worker
            volumeMounts:
            - name: shmem
              mountPath: /dev/shm
            resources:
              limits:
                nvidia.com/gpu: 8
                hugepages-2Mi: 5120Mi
                vpc.amazonaws.com/efa: 32
                memory: 32000Mi
              requests:
                nvidia.com/gpu: 8
                hugepages-2Mi: 5120Mi
                vpc.amazonaws.com/efa: 32
                memory: 32000Mi
          volumes:
          - name: shmem
            hostPath:
              path: /dev/shm

Aplique las pruebas de NCCCL MPIJob:

Aplique el manifiesto para enviar MPIJob. Esto creará dos instancias p5.48xlarge de Amazon EC2.
```
kubectl apply -f nccl-tests.yaml
```
Un ejemplo de salida sería el siguiente.
```
mpijob.kubeflow.org/nccl-tests created
```

Comprobación de que el trabajo haya iniciado los pods:

Consulte sus pods en ejecución.


kubectl get pods

Un ejemplo de salida sería el siguiente.


NAME                             READY   STATUS     RESTARTS   AGE
nccl-tests-launcher-nbql9    0/1     Init:0/1   0          2m49s
nccl-tests-worker-0          1/1     Running    0          2m49s
nccl-tests-worker-1          1/1     Running    0          2m49s

El operador MPI crea un pod de lanzamiento y dos pods de trabajo (uno en cada nodo).

Comprobación de que el trabajo se ejecute correctamente con los registros:

Consulte el registro del pod nccl-tests-launcher. Sustituya nbql9 con el valor de su salida.
```
kubectl logs -f nccl-tests-launcher-nbql9
```

Si la prueba se completó correctamente, puede implementar las aplicaciones que utilizan Nvidia Collective Communication Library.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Configuración de las AMI de GPU de Windows

Configuración de clústeres de inferencia con Inferentia