Como começar a usar instâncias P5 para o Linux - Amazon Elastic Compute Cloud

Como começar a usar instâncias P5 para o Linux

As instâncias P5 fornecem 8 GPUs NVIDIA H100 com 640 GB de memória de GPU com alta largura de banda. Elas oferecem processadores AMD EPYC de 3ª geração e fornecem 2 TB de memória de sistema, 30 TB de armazenamento de instância NVMe local, largura de banda da rede agregada de 3.200 Gbps e suporte a RDMA GPUDirect. As instâncias P5 também oferecem suporte à tecnologia Amazon EC2 UltraCluster, que fornece menor latência e melhor performance de rede usando o EFA.

A tabela a seguir fornece um resumo das especificações de p5.48xlarge.

vCPUs Memória do sistema GPUs Memória da GPU Largura de banda de rede GPUDirect RDMA GPU ponto a ponto Armazenamento de instâncias
192 2 TiB 8 GPUs NVIDIA H100 HBM3 DE 640 GB 3200 Gbps com EFAv2 Compatível Switch NV de 900 Gb/s 8 volumes SSD NVMe de 3.800 GB
Configuração de software

A maneira mais fácil de começar a usar instâncias P5 é iniciar uma instância usando um AWS Deep Learning AMI que está pré-configurado com todo o software necessário. Para o AWS Deep Learning AMI mais recente para uso com instâncias P5, consulte AWS Deep Learning Base GPU AMI (Ubuntu 20.04).

Se você precisar criar uma AMI personalizada para uso com instâncias P5, recomendamos instalar as seguintes versões mínimas de software:

  • Driver NVIDIA 535.54.03 ou posterior

  • CUDA 12.1 ou posterior

  • NVIDIA GDRCopy 2.3 ou posterior

  • Instalador EFA 1.24.1 ou posterior

  • NCCL 2.18.3 ou posterior

  • Plugin aws-ofi-nccl 1.7.2-aws ou posterior

Também recomendamos que você configure a instância para não usar estados C mais profundos. Para obter mais informações, consulte High performance and low latency by limiting deeper C-states no Amazon Linux 2 User Guide. A mais recente AMI de GPU básica de aprendizado profundo da AWS está pré-configurada para não usar estados C mais profundos.

Recomendações específicas do Ubuntu 20.04

As recomendações a seguir para o Ubuntu 20.04 ajudam a evitar a nomenclatura imprevisível da interface na inicialização.

  • Verifique se você está executando systemd 245.4-4ubuntu3.19 ou posterior com o seguinte comando:

    systemd --version
  • Verifique se você configurou o GRUB:

    • Abra o arquivo de configuração /etc/default/grub em um editor de texto.

    • Edite a entrada GRUB_CMDLINE_LINUX_DEFAULT para incluir net.naming-scheme=v247.

    • Reinicie sua instância executando sudo update-grub.

Configuração de rede e EFA

As instâncias P5 fornecem 3.200 Gbps de largura de banda de rede usando várias interfaces EFA. As instâncias P5 oferecem suporte a 32 placas de rede. Recomendamos que você defina uma única interface de rede EFA por placa de rede. Para configurar essas interfaces no lançamento, recomendamos as seguintes configurações:

  • Para interface de rede 0, especifique o índice de dispositivo 0

  • Para interface de rede 1 a 31, especifique o índice de dispositivo 1

Para obter mais informações sobre como configurar suas instâncias P5 para EFA, consulte Começar a usar instâncias P5 e EFA.