Principes de base EFA Interfaces et bibliothèques prises en charge Types d’instance pris en charge Systèmes d’exploitation pris en charge Restrictions liées à EFA Tarification EFA

Adaptateur Elastic Fabric pour AI/ML les charges de travail HPC sur Amazon EC2

Un Elastic Fabric Adapter (EFA) est un périphérique réseau que vous pouvez attacher à votre instance Amazon EC2 pour accélérer l’intelligence artificielle (IA), de machine learning (ML) et de calcul haute performance (HPC). L'EFA vous permet d'atteindre les performances applicatives d'un cluster sur site AI/ML ou HPC, grâce à l'évolutivité, à la flexibilité et à l'élasticité offertes par le cloud. AWS

EFA offre une latence plus faible et plus cohérente avec un débit plus élevé que le transport TCP utilisé traditionnellement dans des systèmes HPC basés sur le cloud. Il améliore les performances de la communication entre instances, essentielle à la mise à l'échelle AI/ML et aux applications HPC. Il est optimisé pour fonctionner sur l'infrastructure AWS réseau existante et peut évoluer en fonction des exigences de l'application.

EFA s'intègre à Libfabric et prend en charge la bibliothèque Nvidia Collective Communications (NCCL) et la bibliothèque NVIDIA Inference Xfer (NIXL) pour les applications d'IA et de ML, ainsi que Open MPI 4.1 et versions ultérieures et Intel MPI 2019 Update 5 et versions ultérieures pour les applications HPC. NCCL et MPI s'intègrent à Libfabric 1.7.0 et versions ultérieures. NIXL s'intègre à Libfabric 1.21.0 et versions ultérieures.

EFA prend en charge l’écriture RDMA (Remote Direct Memory Access) sur la plupart des types d’instances compatibles dotés de Nitro version 4 ou ultérieure. La lecture RDMA est prise en charge sur toutes les instances dotées de Nitro version 4 ou ultérieure. Pour de plus amples informations, veuillez consulter Types d’instance pris en charge.

Table des matières

Principes de base EFA

Un périphérique EFA peut être attaché à une instance EC2 de deux manières :

Utilisation d’une interface EFA traditionnelle, également appelée EFA avec ENA, qui crée à la fois un appareil EFA et celui ENA.
En utilisant une EFA-only interface qui crée uniquement le périphérique EFA.

Le dispositif EFA fournit des fonctionnalités telles que le contrôle intégré OS-bypass et le contrôle de la congestion via le protocole SRD (Scalable Reliable Datagram). Les fonctionnalités de l’EFA permettent un transport fiable à faible latence qui permet à l’interface EFA d’améliorer les performances des applications HPC et ML sur Amazon EC2. Alors que l’appareil ENA propose un réseau IP traditionnel.

Comparaison d’une pile de logiciels HPC traditionnelle avec une pile qui utilise un EFA.

Traditionnellement, AI/ML les applications utilisent NCCL et NIXL (pour l'inférence désagrégée). Les applications HPC utilisent l'interface MPI (Message Passing Interface) pour s'interfacer avec le transport réseau du système. Dans le AWS cloud, cela signifie que les applications s'interfacent avec NCCL, NIXL ou MPI, qui utilisent ensuite la TCP/IP pile du système d'exploitation et le pilote de périphérique ENA pour permettre la communication réseau entre les instances.

Avec une EFA-only interface EFA (EFA avec ENA) traditionnelle, les AI/ML applications utilisent NCCL et NIXL (pour l'inférence désagrégée). Les applications HPC utilisent MPI pour s'interfacer directement avec l'API Libfabric. L’API Libfabric contourne le noyau du système d’exploitation et communique directement avec l’appareil EFA pour placer les paquets sur le réseau. Cela réduit les frais généraux AI/ML et permet aux applications HPC de fonctionner plus efficacement.

Note

Libfabric est un composant essentiel du framework OpenFabrics Interfaces (OFI), qui définit et exporte l'API de l'espace utilisateur d'OFI. Pour plus d'informations, consultez le OpenFabrics site Web de Libfabric.

Différences entre les interfaces ENA, EFA et EFA-only réseau

Amazon EC2 offre deux types d’interfaces réseau :

les interfaces ENA fournissent toutes les fonctionnalités de réseau et de routage IP traditionnelles requises pour prendre en charge le réseau IP d’un VPC. Pour de plus amples informations, veuillez consulter Activez la mise en réseau améliorée grâce à l’ENA sur vos instances EC2.
Les interfaces EFA (EFA avec ENA) fournissent à la fois le dispositif ENA pour les réseaux IP et le dispositif EFA pour les communications à faible latence et haut débit.
EFA-onlyles interfaces ne prennent en charge que les fonctionnalités des appareils EFA, sans le périphérique ENA pour les réseaux IP traditionnels.

Le tableau suivant fournit une comparaison entre les interfaces ENA, EFA et EFA-only réseau.

	ENA	EFA (EFA avec ENA)	EFA-only
Prend en charge les fonctionnalités de réseau IP	Oui	Oui	Non
Des adresses IPv4 ou IPv6 peuvent être attribuées	Oui	Oui	Non
Peut être utilisé comme interface réseau principale pour l’instance	Oui	Oui	Non
Compte pour la limite d’attachement de l’ENI, pour l’instance	Oui	Oui	Oui
Prise en charge de types d’instances	Pris en charge sur tous les types d' Nitro-based instances	Types d’instance pris en charge	Types d’instance pris en charge
Dénomination des paramètres dans les API EC2	`interface`	`efa`	`efa-only`
Dénomination des champs dans la console EC2	Aucune sélection	EFA avec ENA	EFA-only

Interfaces et bibliothèques prises en charge

Les EFA prennent en charge les interfaces et bibliothèques suivantes :

Ouvrez MPI 4.1 et versions ultérieures
Intel MPI 2019 Update 5 et ultérieure
NVIDIA Collective Communications Library (NCCL) 2.4.2 et versions ultérieures
NVIDIA Inference Xfer Library (NIXL) 1.0.0 et versions ultérieures
AWS Neuron SDK version 2.3 et versions ultérieures

Types d’instance pris en charge

Tous les types d’instance suivants prennent en charge EFA. En outre, les tableaux indiquent la prise en charge de la lecture RDMA et de l’écriture RDMA pour les types d’instances.

Nitro v6

Type d’instance	Prise en charge de lecture RDMA	Prise en charge de l’écriture RDMA
Usage général
8 m x 48 x large	Oui	Oui
m8a.metal-48xl	Oui	Oui
m8azn. 24 x large	Oui	Oui
m8azn.metal-24xl	Oui	Oui
8 Go, 16 x large	Oui	Oui
8 Go, 24 x large	Oui	Oui
8 Go, 48 x large	Oui	Oui
m8gb.metal-24xl	Oui	Oui
m8gb.metal-48xl	Oui	Oui
8 mm x 16 x large	Oui	Oui
8 mm, 24 x large	Oui	Oui
8 mm x 48 x large	Oui	Oui
m8gn.metal-24xl	Oui	Oui
m8gn.metal-48xl	Oui	Oui
m8i.48xlarge	Oui	Oui
m8i.96xlarge	Oui	Oui
m8i.metal-48xl	Oui	Oui
m8i.metal-96xl	Oui	Oui
m 8 id.48 x large	Oui	Oui
M8 id.96 x large	Oui	Oui
m8id.metal-48xl	Oui	Oui
m8id.metal-96xl	Oui	Oui
8 m x 48 x large	Oui	Oui
8 m x 96 x large	Oui	Oui
m 8 idn. 48 x large	Oui	Oui
m8idn.96 x large	Oui	Oui
8 mb. 48 x large	Oui	Oui
8 mb. 96 x large	Oui	Oui
m8idb.48xlarge	Oui	Oui
m8idb.96 x large	Oui	Oui
Calcul optimisé
environ 8 x 48 x large	Oui	Oui
c8a.metal-48xl	Oui	Oui
8 Go, 16 x large	Oui	Oui
8 Go, 24 x large	Oui	Oui
8 Go, 48 x large	Oui	Oui
c8gb.metal-24xl	Oui	Oui
c8gb.metal-48xl	Oui	Oui
c8gn.16xlarge	Oui	Oui
c8gn.24xlarge	Oui	Oui
c8gn.48xlarge	Oui	Oui
c8gn.metal-24xl	Oui	Oui
c8gn.metal-48xl	Oui	Oui
8 x 48 x large	Oui	Oui
c8i.96xlarge	Oui	Oui
c8i.metal-48xl	Oui	Oui
c8i.metal-96xl	Oui	Oui
C8 id.48 x large	Oui	Oui
C8 id.96 x large	Oui	Oui
c8id.metal-48xl	Oui	Oui
c8id.metal-96xl	Oui	Oui
environ 8 pouces 48 x large	Oui	Oui
environ 8 pouces 96 x large	Oui	Oui
c8 pouces en métal-48 xl	Oui	Oui
c8in.metal-96xl	Oui	Oui
c8ib.48 x large	Oui	Oui
c8ib.96 x large	Oui	Oui
c8ib.metal-48xl	Oui	Oui
c8ib.metal-96xl	Oui	Oui
Mémoire optimisée
r8a. 48 x large	Oui	Oui
r8a.metal-48xl	Oui	Oui
r8gb.16xlarge	Oui	Oui
r8gb.24xlarge	Oui	Oui
8 Go, 48 x large	Oui	Oui
r8gb.metal-24xl	Oui	Oui
r8gb.metal-48xl	Oui	Oui
r8gn.16xlarge	Oui	Oui
r8gn.24xlarge	Oui	Oui
r8gn.48xlarge	Oui	Oui
r8gn.metal-24xl	Oui	Oui
r8gn.metal-48xl	Oui	Oui
r8i.48xlarge	Oui	Oui
r8i.96xlarge	Oui	Oui
r8i.metal-48xl	Oui	Oui
r8i.metal-96xl	Oui	Oui
R8id.48xlarge	Oui	Oui
8 id.96 x large	Oui	Oui
r8id.metal-48xl	Oui	Oui
r8id.metal-96xl	Oui	Oui
8 po 48 x large	Oui	Oui
8 pouces 96 x large	Oui	Oui
r8idn.48 x large	Oui	Oui
r8idn.96 x large	Oui	Oui
8 x 48 x large	Oui	Oui
8 x 96 x large	Oui	Oui
r8idb.48xlarge	Oui	Oui
r8idb.96xlarge	Oui	Oui
x 8 aedz. 24 x large	Oui	Oui
x8aedz.metal-24xl	Oui	Oui
8 x 48 x large	Oui	Oui
x 8 x 64 x large	Oui	Oui
x 8 x 96 x large	Oui	Oui
x8i.metal-48xl	Oui	Oui
x8i.metal-96xl	Oui	Oui
Stockage optimisé
i8ge.48xlarge	Oui	Non
i8ge.metal-48xl	Oui	Non
Calcul accéléré
7e x 8 x large	Oui	Oui
G7E, 12 x large	Oui	Oui
g7e x 24 x large	Oui	Oui
g7e 48 x large	Oui	Oui
p6-b200.48xlarge	Oui	Oui
p6-b 300,48 x large	Oui	Oui
Calcul haute performance
HP C8A. 96 x large	Oui	Oui

Nitro v5

Type d’instance	Prise en charge de lecture RDMA	Prise en charge de l’écriture RDMA
Usage général
m8g.24xlarge	Oui	Non
m8g.48xlarge	Oui	Non
m8g.metal-24xl	Oui	Non
m8g.metal-48xl	Oui	Non
m8gd.24xlarge	Non	Non
m8gd.48xlarge	Non	Non
m8gd.metal-24xl	Non	Non
m8gd.metal-48xl	Non	Non
Calcul optimisé
c7gn.16xlarge	Oui	Non
c7gn.metal	Oui	Non
c8g.24xlarge	Oui	Non
c8g.48xlarge	Oui	Non
c8g.metal-24xl	Oui	Non
c8g.metal-48xl	Oui	Non
c8gd.24xlarge	Non	Non
c8gd.48xlarge	Non	Non
c8gd.metal-24xl	Non	Non
c8gd.metal-48xl	Non	Non
Mémoire optimisée
r8g.24xlarge	Non	Non
r8g.48xlarge	Non	Non
r8g.metal-24xl	Non	Non
r8g.metal-48xl	Non	Non
r8gd.24xlarge	Non	Non
r8gd.48xlarge	Non	Non
r8gd.metal-24xl	Non	Non
r8gd.metal-48xl	Non	Non
x8g.24xlarge	Non	Non
x8g.48xlarge	Non	Non
x8g.metal-24xl	Non	Non
x8g.metal-48xl	Non	Non
Stockage optimisé
i7ie.48xlarge	Oui	Non
i7ie.metal-48xl	Oui	Non
i8g.48xlarge	Non	Non
i8g.metal-48xl	Non	Non
Calcul accéléré
p5en.48xlarge	Oui	Oui
p6e-gb200.36xlarge	Oui	Oui
trn 2,3 x large	Oui	Oui
trn2.48xlarge	Oui	Oui
trn2u.48xlarge	Oui	Oui
Calcul haute performance
hpc7g.4xlarge	Oui	Non
hpc7g.8xlarge	Oui	Non
hpc7g.16xlarge	Oui	Non

Nitro v4

Type d’instance	Prise en charge de lecture RDMA	Prise en charge de l’écriture RDMA
Usage général
m6a.48xlarge	Oui	Oui
m6a.metal	Oui	Oui
m6i.32xlarge	Oui	Oui
m6i.metal	Oui	Oui
m6id.32xlarge	Oui	Oui
m6id.metal	Oui	Oui
m6idn.32xlarge	Oui	Oui
m6idn.metal	Oui	Oui
m6in.32xlarge	Oui	Oui
m6in.metal	Oui	Oui
m7a.48xlarge	Oui	Non
m7a.metal-48xl	Oui	Non
m7g.16xlarge	Oui	Non
m7g.metal	Oui	Non
m7gd.16xlarge	Oui	Non
m7gd.metal	Oui	Non
m7i.48xlarge	Oui	Non
m7i.metal-48xl	Oui	Non
Calcul optimisé
c6a.48xlarge	Oui	Oui
c6a.metal	Oui	Oui
c6gn.16xlarge	Oui	Oui
c6i.32xlarge	Oui	Oui
c6i.metal	Oui	Oui
c6id.32xlarge	Oui	Oui
c6id.metal	Oui	Oui
c6in.32xlarge	Oui	Oui
c6in.metal	Oui	Oui
c7a.48xlarge	Oui	Non
c7a.metal-48xl	Oui	Non
c7g.16xlarge	Oui	Oui
c7g.metal	Oui	Oui
c7gd.16xlarge	Oui	Non
c7gd.metal	Oui	Non
c7i.48xlarge	Oui	Non
c7i.metal-48xl	Oui	Non
Mémoire optimisée
r6a.48xlarge	Oui	Oui
r6a.metal	Oui	Oui
r6i.32xlarge	Oui	Oui
r6i.metal	Oui	Oui
r6id.32xlarge	Oui	Oui
r6id.metal	Oui	Oui
r6idn.32xlarge	Oui	Oui
r6idn.metal	Oui	Oui
r6in.32xlarge	Oui	Oui
r6in.metal	Oui	Oui
r7a.48xlarge	Non	Non
r7a.metal-48xl	Non	Non
r7g.16xlarge	Non	Non
r7g.metal	Non	Non
r7gd.16xlarge	Non	Non
r7gd.metal	Non	Non
r7i.48xlarge	Non	Non
r7i.metal-48xl	Non	Non
r7iz.32xlarge	Non	Non
r7iz.metal-32xl	Non	Non
u7i-6tb.112xlarge	Oui	Oui
u7i-8tb.112xlarge	Oui	Oui
u7i-12tb.224xlarge	Oui	Oui
u7in-16tb.224xlarge	Oui	Oui
u7in-24tb.224xlarge	Oui	Oui
u7in-32tb.224xlarge	Oui	Oui
u7inh-32tb.480xlarge	Oui	Oui
x2idn.32xlarge	Oui	Oui
x2idn.metal	Oui	Oui
x2iedn.32xlarge	Oui	Oui
x2iedn.metal	Oui	Oui
Stockage optimisé
i4g.16xlarge	Oui	Oui
i4i.32xlarge	Oui	Oui
i4i.metal	Oui	Oui
i7i.24xlarge	Oui	Non
i7i.48xlarge	Oui	Non
i7i.metal-48xl	Oui	Non
im4gn.16xlarge	Oui	Oui
Calcul accéléré
f2.48xlarge	Oui	Oui
g6.8xlarge	Oui	Oui
g6.12xlarge	Oui	Oui
g6.16xlarge	Oui	Oui
g6.24xlarge	Oui	Oui
g6.48xlarge	Oui	Oui
g6e.8xlarge	Oui	Oui
g6e.12xlarge	Oui	Oui
g6e.16xlarge	Oui	Oui
g6e.24xlarge	Oui	Oui
g6e.48xlarge	Oui	Oui
gr6.8xlarge	Oui	Oui
p5.4xlarge	Oui	Oui
p5.48xlarge	Oui	Oui
p5e.48xlarge	Oui	Oui
trn1.32xlarge	Oui	Oui
trn1n.32xlarge	Oui	Oui
Calcul haute performance
hpc6a.48xlarge	Oui	Oui
hpc6id.32xlarge	Oui	Oui
hpc7a.12xlarge	Oui	Non
hpc7a.24xlarge	Oui	Non
hpc7a.48xlarge	Oui	Non
hpc7a.96xlarge	Oui	Non

Nitro v3

Type d’instance	Prise en charge de lecture RDMA	Prise en charge de l’écriture RDMA
Usage général
m5dn.24xlarge	Non	Non
m5dn.metal	Non	Non
m5n.24xlarge	Non	Non
m5n.metal	Non	Non
m5zn.12xlarge	Non	Non
m5zn.metal	Non	Non
Calcul optimisé
c5n.9xlarge	Non	Non
c5n.18xlarge	Non	Non
c5n.metal	Non	Non
Mémoire optimisée
r5dn.24xlarge	Non	Non
r5dn.metal	Non	Non
r5n.24xlarge	Non	Non
r5n.metal	Non	Non
x2iezn.12xlarge	Non	Non
x2iezn.metal	Non	Non
Stockage optimisé
i3en.12xlarge	Non	Non
i3en.24xlarge	Non	Non
i3en.metal	Non	Non
Calcul accéléré
dl2q.24xlarge	Non	Non
g4dn.8xlarge	Non	Non
g4dn.12xlarge	Non	Non
g4dn.16xlarge	Non	Non
g4dn.metal	Non	Non
g5.8xlarge	Non	Non
g5.12xlarge	Non	Non
g5.16xlarge	Non	Non
g5.24xlarge	Non	Non
g5.48xlarge	Non	Non
inf1.24xlarge	Non	Non
p3dn.24xlarge	Non	Non
p4d.24xlarge	Oui	Non
p4de.24xlarge	Oui	Non
vt1.24xlarge	Non	Non
Génération précédente
p3dn.24xlarge	Non	Non

Pour consulter les types d’instance disponibles qui prennent en charge les EFA dans une région spécifique

Les types d’instance disponibles varient selon la région. Pour consulter les types d’instance disponibles qui prennent en charge les EFA dans une région, utilisez la commande describe-instance-types avec le paramètre --region. Incluez le paramètre --filterspour étendre les résultats aux types d’instance qui prennent en charge EFA et le paramètre --query pour étendre la sortie à la valeur de InstanceType.


aws ec2 describe-instance-types \
    --region us-east-1  \
    --filters Name=network-info.efa-supported,Values=true \
    --query "InstanceTypes[*].[InstanceType]"  \
    --output text | sort

Systèmes d’exploitation pris en charge

La prise en charge du système d’exploitation varie en fonction du type de processeur. Le tableau suivant présente les systèmes d’exploitation pris en charge.

Système d’exploitation	Intel/AMD (`x86_64`) types d'instances	AWS Types d'instances de Graviton (`arm64`)
Amazon Linux 2023	✓	✓
Amazon Linux 2	✓	✓
RHEL 8, 9 et 10	✓	✓
Debian 11, 12 et 13	✓	✓
Rocky Linux 8 et 9	✓	✓
Ubuntu 22.04 et 24.04	✓	✓
SUSE Linux Enterprise 15 SP2 ou version ultérieure	✓	✓
OpenSUSE Leap 15.5 et versions ultérieures	✓

Note

Certains des systèmes d’exploitation énumérés peuvent ne pas être pris en charge par Intel MPI. Si vous utilisez Intel MPI, reportez-vous à la documentation Intel MPI pour vérifier si votre système d’exploitation est compatible avec celui-ci.

Restrictions liées à EFA

Les EFA présentent les limitations suivantes :

L’écriture RDMA n’est pas prise en charge avec tous les types d’instances. Pour de plus amples informations, veuillez consulter Types d’instance pris en charge.
Le trafic EFA ¹ entre les P4d/P4de/DL1 instances et les autres types d'instances n'est actuellement pas pris en charge.
Les types d’instance qui prennent en charge plusieurs cartes réseau peuvent être configurés avec un EFA par carte réseau. Tous les autres types d’instance pris en charge ne prennent en charge qu’un EFA par instance.
Les instances dédiées c7g.16xlarge, m7g.16xlarge et r7g.16xlarge, de même que les hôtes dédiés, ne sont pas pris en charge lorsqu’un EFA est attaché.
Le trafic EFA¹ ne peut pas traverser les zones de disponibilité ou les VPC. Cela ne s’applique pas au trafic IP normal provenant du périphérique ENA d’une interface EFA.
Le trafic EFA¹ n’est pas routable. Le trafic IP normal de l’appareil ENA d’une interface EFA reste routable.
L'EFA n'est pas pris en charge sur AWS Outposts.
Le périphérique EFA d'une interface EFA (EFA avec ENA) est pris en charge sur les instances Windows uniquement pour les applications basées sur le kit de développement AWS Cloud Digital Interface logiciel (AWS CDI SDK). Si vous associez une interface EFA (EFA avec ENA) à une instance Windows pour des applications non basées sur le SDK CDI, elle fonctionne comme une interface ENA, sans les fonctionnalités supplémentaires du périphérique EFA. L' EFA-only interface n'est pas prise en charge par les applications AWS CDI basées sur Windows ou Linux. Pour plus d'informations, consultez le guide de l'utilisateur du kit de développement AWS Cloud Digital Interface logiciel (AWS CDI SDK).

¹ Le trafic EFA fait référence au trafic transmis via le dispositif EFA d'un EFA (EFA avec ENA) ou d'une EFA-only interface.

Tarification EFA

EFA est disponible en tant que fonctionnalité de mise en réseau Amazon EC2 optionnelle que vous pouvez activer sur n’importe quelle instance prise en charge sans frais supplémentaires.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Optimiser les performances du réseau sous Windows

Commencer avec EFA et MPI