Elastic Fabric Adapter
Elastic Fabric Adapter (EFA) は、High Performance Computing (HPC) と機械学習アプリケーションを高速化するために Amazon EC2 インスタンスにアタッチできるネットワークデバイスです。EFA では、AWS クラウドが提供するスケーラビリティ、柔軟性、伸縮性により、オンプレミス HPC クラスターのアプリケーションパフォーマンスを実現できます。
EFA では、クラウドベースの HPC システムで従来使用されていた TCP トランスポートよりも低く、一貫性の高いレイテンシーを提供し、高いスループットが得られます。HPC と機械学習アプリケーションのスケーリングに不可欠なインスタンス間通信のパフォーマンスが向上します。既存の AWS ネットワークインフラストラクチャで動作するように最適化されており、アプリケーション要件に応じてスケーリングすることができます。
EFA は、Libfabric 1.7.0 と統合されており、HPC アプリケーション向けに Open MPI 3.1.3 以降とインテル MPI 2019 Update 5 以降をサポートし、さらに機械学習アプリケーション向けに Nvidia Collective Communications Library (NCCL) をサポートしています。
EFAs の OS バイパス機能は、Windows インスタンスではサポートされていません。EFA を Windows インスタンスにアタッチした場合、インスタンスは、Elastic Network Adapter として動作し、EFA 機能は追加されません。
コンテンツ
EFA の基本
EFA は、機能が追加された Elastic Network Adapter (ENA) です。ENA のすべての機能に OS バイパス機能が追加されています。OS バイパスは、HPC と機械学習アプリケーションがネットワークインターフェイスハードウェアと直接通信して、レイテンシーが低く、信頼性の高い転送機能を実現できるようにするアクセスモデルです。

従来、HPC アプリケーションは、Message Passing Interface (MPI) を使用してシステムのネットワーク転送と通信していました。AWS クラウドでは、アプリケーションが MPI と通信することを意味します。MPI はオペレーティングシステムの TCP/IP スタックと ENA デバイスドライバーを使用して、インスタンス間のネットワーク通信を行います。
EFA の場合、HPC アプリケーションは MPI または NCCL を使用して Libfabric API と連携します。Libfabric API はオペレーティングシステムのカーネルをバイパスし、EFA デバイスと直接通信してパケットをネットワークに送ります。これにより、オーバーヘッドが削減され、HPC アプリケーションを効率的に実行できるようになります。
Libfabric は、OpenFabrics Interface (OFI) フレームワークのコアコンポーネントで、OFI のユーザースペース API を定義およびエクスポートします。詳細については、「Libfabric OpenFabrics
EFAs と ENA の違い
Elastic Network Adapters (ENA) は、VPC ネットワーキングをサポートするために必要な従来の IP ネットワーキング機能を提供します。EFAは、ENA と同じ従来の IP ネットワーキング機能すべてに加えて、OS バイパス機能をサポートしています。OS バイパスにより、HPC と機械学習アプリケーションはオペレーティングシステムのカーネルをバイパスして EFA デバイスと直接通信できます。
サポートされているインターフェイスとライブラリ
EFA は、以下のインターフェイスとライブラリをサポートしています。
-
Open MPI 3.1.3 以降
-
Graviton には、Open MPI 4.0 以降が推奨されます
-
Intel MPI 2019 Update 5 以降
-
NVIDIA Collective Communications Library (NCCL) 2.4.2 以降
サポートされるインスタンスタイプ
EFAs をサポートしているインスタンスタイプ:
-
汎用:
m5dn.24xlarge
|m5dn.metal
|m5n.24xlarge
|m5n.metal
|m5zn.12xlarge
|m5zn.metal
|m6a.32xlarge
|m6a.48xlarge
|m6a.metal
|m6i.32xlarge
|m6i.metal
|m6id.32xlarge
|m6id.metal
-
コンピューティング最適化:
c5n.18xlarge
|c5n.9xlarge
|c5n.metal
|c6a.32xlarge
|c6a.48xlarge
|c6a.metal
|c6gn.16xlarge
|c6i.32xlarge
|c6i.metal
|c6id.32xlarge
|c6id.metal
|c7g.16xlarge
|hpc6a.48xlarge
-
メモリ最適化:
r5dn.24xlarge
|r5dn.metal
|r5n.24xlarge
|r5n.metal
|r6a.48xlarge
|r6a.metal
|r6i.32xlarge
|r6i.metal
|r6id.32xlarge
|r6id.metal
|x2d.32xlarge
|x2d.metal
|x2ed.32xlarge
|x2ed.metal
|x2iezn.12xlarge
|x2iezn.metal
|x2idn.32xlarge
|x2iedn.32xlarge
-
ストレージ最適化:
i3en.24xlarge
|i3en.12xlarge
|i3en.metal
|i4i.32xlarge
|i4i.metal
|im4gn.16xlarge
-
高速コンピューティング:
dl1.24xlarge
|g4dn.8xlarge
|g4dn.12xlarge
|g4dn.metal
|g5.48xlarge
|inf1.24xlarge
|p3dn.24xlarge
|p4d.24xlarge
|trn1.32xlarge
特定のリージョンで EFA をサポートする利用可能なインスタンスタイプを確認するには
利用可能なインスタンスタイプは、リージョンごとに異なります。リージョンで EFA をサポートする使用可能なインスタンスタイプを確認するには、--region
パラメーターを指定して describe-instance-types コマンドを使用します。結果を EFA をサポートするインスタンスタイプにスコープする --filters
パラメーターと、出力を InstanceType
の値にスコープする --query
パラメーターを含めます。
aws ec2 describe-instance-types --region
us-east-1
--filters Name=network-info.efa-supported,Values=true --query "InstanceTypes[*].[InstanceType]" --output text | sort
出力例
c5n.18xlarge
c5n.9xlarge
c5n.metal
c6a.32xlarge
c6a.48xlarge
c6a.metal
c6gn.16xlarge
c6i.32xlarge
...
サポートされている AMI
次の AMI は、インテル x86 ベースのインスタンスタイプを持つ EFA をサポートしています。
Amazon Linux 2
CentOS 7
RHEL 7 および 8
Ubuntu 18.04、20.04、22.04
SUSE Linux Enterprise 15 SP2 以降
openSUSE Leap 15.3 以降
Ubuntu 20.04 では、dl1.24xlarge
インスタンスと併用した場合、ピアダイレクトサポートがサポートされます。
次の AMI は、ARM ベース (Graviton 2) インスタンスタイプを持つ EFA をサポートしています。
Amazon Linux 2
RHEL 8
Ubuntu 18.04、20.04、22.04
SUSE Linux Enterprise 15 SP2 以降
EFA の制限事項
EFA には次の制限があります。
-
p4d.24xlarge
およびdl1.24xlarge
インスタンスは最大 4 つの EFAをサポートします。その他のサポートされているインスタンスタイプはすべて、インスタンスごとに 1 つの EFA のみをサポートしています。 -
EFA がアタッチされている場合、
c7g.16xlarge
専有インスタンスおよび専有ホストはサポートされません。 -
EFA OS バイパストラフィックは、1 つのサブネットに制限されています。つまり、EFA トラフィックをサブネット間で送信することはできません。EFA の通常の IP トラフィックは、サブネット間で送信することができます。
-
EFA OS バイパストラフィックは、ルーティングできません。EFA の通常の IP トラフィックは、引き続きルーティングできます。
-
EFA は、セキュリティグループ自体との間のインバウンドおよびアウトバウンドのトラフィックをすべて許可するセキュリティグループのメンバーである必要があります。