翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
(オプション) EFA をテストする
EFA ソフトウェアのインストールに含まれている fi_pingpong
プログラムを実行することで、コンピューティングノードグループ内の 2 つのノード間の EFA 対応通信をデモンストレーションできます。このテストが成功すると、EFA が正しく設定されている可能性があります。
開始するには、コンピューティングノードグループに 2 つの実行中のインスタンスが必要です。コンピューティングノードグループが静的容量を使用している場合、使用可能なインスタンスが既にあるはずです。動的容量を使用するコンピューティングノードグループの場合、 salloc
コマンドを使用して 2 つのノードを起動できます。という名前のキューhpc7g
に関連付けられた という名前の動的ノードグループを持つクラスターの例を次に示しますall
。
% salloc --nodes 2 -p all salloc: Granted job allocation 6 salloc: Waiting for resource configuration ... a few minutes pass ... salloc: Nodes hpc7g-[1-2] are ready for job
を使用して、割り当てられた 2 つのノードの IP アドレスを確認しますscontrol
。次の例では、アドレスは 10.3.140.69
用hpc7g-1
、 10.3.132.211
用ですhpc7g-2
。
% scontrol show nodes hpc7g-[1-2] NodeName=hpc7g-1 Arch=aarch64 CoresPerSocket=1 CPUAlloc=0 CPUEfctv=64 CPUTot=64 CPULoad=0.00 AvailableFeatures=hpc7g ActiveFeatures=hpc7g Gres=(null) NodeAddr=10.3.140.69 NodeHostName=ip-10-3-140-69 Version=24.11.5 OS=Linux 5.10.218-208.862.amzn2.aarch64 #1 SMP Tue Jun 4 16:52:10 UTC 2024 RealMemory=124518 AllocMem=0 FreeMem=110763 Sockets=64 Boards=1 State=IDLE+CLOUD ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A Partitions=efa BootTime=2024-07-02T19:00:09 SlurmdStartTime=2024-07-08T19:33:25 LastBusyTime=2024-07-08T19:33:25 ResumeAfterTime=None CfgTRES=cpu=64,mem=124518M,billing=64 AllocTRES= CapWatts=n/a CurrentWatts=0 AveWatts=0 ExtSensorsJoules=n/a ExtSensorsWatts=0 ExtSensorsTemp=n/a Reason=Maintain Minimum Number Of Instances [root@2024-07-02T18:59:00] InstanceId=i-04927897a9ce3c143 InstanceType=hpc7g.16xlarge NodeName=hpc7g-2 Arch=aarch64 CoresPerSocket=1 CPUAlloc=0 CPUEfctv=64 CPUTot=64 CPULoad=0.00 AvailableFeatures=hpc7g ActiveFeatures=hpc7g Gres=(null) NodeAddr=10.3.132.211 NodeHostName=ip-10-3-132-211 Version=24.11.5 OS=Linux 5.10.218-208.862.amzn2.aarch64 #1 SMP Tue Jun 4 16:52:10 UTC 2024 RealMemory=124518 AllocMem=0 FreeMem=110759 Sockets=64 Boards=1 State=IDLE+CLOUD ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A Partitions=efa BootTime=2024-07-02T19:00:09 SlurmdStartTime=2024-07-08T19:33:25 LastBusyTime=2024-07-08T19:33:25 ResumeAfterTime=None CfgTRES=cpu=64,mem=124518M,billing=64 AllocTRES= CapWatts=n/a CurrentWatts=0 AveWatts=0 ExtSensorsJoules=n/a ExtSensorsWatts=0 ExtSensorsTemp=n/a Reason=Maintain Minimum Number Of Instances [root@2024-07-02T18:59:00] InstanceId=i-0a2c82623cb1393a7 InstanceType=hpc7g.16xlarge
SSH (または SSMhpc7g-1
) を使用して、いずれかのノード (この例では ) に接続します。これは内部 IP アドレスであるため、SSH を使用する場合はログインノードの 1 つから接続する必要がある場合があります。また、インスタンスは、コンピューティングノードグループの起動テンプレートを使用して SSH キーで設定する必要があることに注意してください。
% ssh ec2-user@10.3.140.69
次に、サーバーモードで を起動fi_pingpong
します。
/opt/amazon/efa/bin/fi_pingpong -p efa
2 番目のインスタンス () に接続しますhpc7g-2
。
% ssh ec2-user@10.3.132.211
fi_pingpong
クライアントモードで を実行し、 のサーバーに接続しますhpc7g-1
。以下の例のような出力が表示されます。
% /opt/amazon/efa/bin/fi_pingpong -p efa 10.3.140.69 bytes #sent #ack total time MB/sec usec/xfer Mxfers/sec 64 10 =10 1.2k 0.00s 3.08 20.75 0.05 256 10 =10 5k 0.00s 21.24 12.05 0.08 1k 10 =10 20k 0.00s 82.91 12.35 0.08 4k 10 =10 80k 0.00s 311.48 13.15 0.08 [error] util/pingpong.c:1876: fi_close (-22) fid 0