Elastic Fabric Adapter - Amazon Elastic Compute Cloud

Elastic Fabric Adapter

Elastic Fabric Adapter (EFA) は、ハイパフォーマンスコンピューティング (HPC) と機械学習アプリケーションを高速化するために Amazon EC2 インスタンスにアタッチできるネットワークデバイスです。EFA では、AWS クラウドが提供するスケーラビリティ、柔軟性、伸縮性により、オンプレミスの HPC クラスターのアプリケーションパフォーマンスを実現できます。

EFA では、クラウドベースの HPC システムで従来使用されていた TCP トランスポートよりも低く、一貫性の高いレイテンシーを提供し、高いスループットが得られます。HPC と機械学習アプリケーションのスケーリングに不可欠なインスタンス間通信のパフォーマンスが向上します。既存の AWS ネットワークインフラストラクチャで動作するように最適化されており、アプリケーション要件に応じてスケーリングすることができます。

EFA は、Libfabric 1.10 と統合されており、HPC アプリケーション向けに Open MPI 4.0.3 および Intel MPI 2019 Update 7、機械学習アプリケーション向けに Nvidia Collective Communications Library (NCCL) をサポートしています。

注記

EFAs の OS バイパス機能は、Windows インスタンスではサポートされていません。EFA を Windows インスタンスにアタッチした場合、インスタンスは、Elastic Network Adapter として動作し、EFA 機能は追加されません。

EFA の基本

EFA は、機能が追加された Elastic Network Adapter (ENA) です。ENA のすべての機能に OS バイパス機能が追加されています。OS バイパスは、HPC と機械学習アプリケーションがネットワークインターフェイスハードウェアと直接通信して、レイテンシーが低く、信頼性の高い転送機能を実現できるようにするアクセスモデルです。


				従来の HPC ソフトウェアスタックと、EFA を使用するソフトウェアスタックの比較。

従来、HPC アプリケーションは、Message Passing Interface (MPI) を使用してシステムのネットワーク転送と通信していました。AWS クラウドでは、アプリケーションが MPI と通信することを意味します。MPI はオペレーティングシステムの TCP/IP スタックと ENA デバイスドライバーを使用して、インスタンス間のネットワーク通信を行います。

EFA の場合、HPC アプリケーションは MPI または NCCL を使用して Libfabric API と連携します。Libfabric API はオペレーティングシステムのカーネルをバイパスし、EFA デバイスと直接通信してパケットをネットワークに送ります。これにより、オーバーヘッドが削減され、HPC アプリケーションを効率的に実行できるようになります。

注記

Libfabric は、OpenFabrics Interface (OFI) フレームワークのコアコンポーネントで、OFI のユーザースペース API を定義およびエクスポートします。詳細については、「Libfabric OpenFabrics」ウェブサイトを参照してください。

EFAs と ENA の違い

Elastic Network Adapters (ENA) は、VPC ネットワークのサポートに必要な従来の IP ネットワーキング機能を提供します。EFAs は、ENA と同じ従来のすべての IP ネットワーキング機能に加えて、OS バイパス機能をサポートしています。OS バイパスにより、HPC と機械学習アプリケーションはオペレーティングシステムのカーネルをバイパスして EFA デバイスと直接通信できます。

サポートされているインターフェイスとライブラリ

EFA は、以下のインターフェイスとライブラリをサポートしています。

  • Open MPI 4.0.3

  • Intel MPI 2019 Update 7

  • NVIDIA Collective Communications Library (NCCL) 2.4.2 以降

サポートされるインスタンスタイプ

次のインスタンスタイプは、EFAs: c5n.18xlargec5n.metalg4dn.metali3en.24xlargei3en.metalm5dn.24xlargem5n.24xlarger5dn.24xlarger5n.24xlarge、および p3dn.24xlarge をサポートします。

利用可能なインスタンスタイプは、リージョンごとに異なります。リージョンで EFA をサポートする利用可能なインスタンスタイプを確認するには、次のコマンドを使用し、--region でリージョンを指定します。

aws --output table --region us-east-1 ec2 describe-instance-types --query InstanceTypes[*].[InstanceType,NetworkInfo.EfaSupported] | grep True

出力例を次に示します。

| i3en.24xlarge | True | | g4dn.metal | True | | c5n.metal | True | | r5n.24xlarge | True | | c5n.18xlarge | True | | inf1.24xlarge | True | | i3en.metal | True | | p3dn.24xlarge | True | | r5dn.24xlarge | True | | m5n.24xlarge | True | | m5dn.24xlarge | True |

サポートされている AMI

AMI Amazon Linux, Amazon Linux 2, RHEL 7.6, RHEL 7.7, RHEL 7.8, CentOS 7, Ubuntu 16.04, and Ubuntu 18.04 は、EFAs をサポートしています。

EFA の制限事項

EFA には次の制約事項があります。

  • インスタンスごとにアタッチできる EFA は 1 つのみです。

  • EFA OS バイパストラフィックは、1 つのサブネットに制限されています。つまり、EFA トラフィックをサブネット間で送信することはできません。EFA の通常の IP トラフィックは、サブネット間で送信することができます。

  • EFA OS バイパストラフィックは、ルーティングできません。EFA の通常の IP トラフィックは、引き続きルーティングできます。

  • EFA は、セキュリティグループ自体との間のインバウンドおよびアウトバウンドのトラフィックをすべて許可するセキュリティグループのメンバーである必要があります。