Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
(Opsional) Uji EFA
Anda dapat mendemonstrasikan komunikasi yang mendukung EFA antara dua node dalam grup node komputasi dengan menjalankan fi_pingpong
program, yang termasuk dalam instalasi perangkat lunak EFA. Jika tes ini berhasil, kemungkinan EFA dikonfigurasi dengan benar.
Untuk memulai, Anda memerlukan dua instance yang berjalan di grup node komputasi. Jika grup node komputasi Anda menggunakan kapasitas statis, seharusnya sudah ada instance yang tersedia. Untuk grup node komputasi yang menggunakan kapasitas dinamis, Anda dapat meluncurkan dua node menggunakan salloc
perintah. Berikut adalah contoh dari cluster dengan grup node dinamis bernama hpc7g
terkait dengan antrian bernamaall
.
% salloc --nodes 2 -p all salloc: Granted job allocation 6 salloc: Waiting for resource configuration ... a few minutes pass ... salloc: Nodes hpc7g-[1-2] are ready for job
Cari tahu alamat IP untuk dua node yang dialokasikan menggunakanscontrol
. Dalam contoh berikut, alamatnya adalah 10.3.140.69
untuk hpc7g-1
dan 10.3.132.211
untukhpc7g-2
.
% scontrol show nodes hpc7g-[1-2] NodeName=hpc7g-1 Arch=aarch64 CoresPerSocket=1 CPUAlloc=0 CPUEfctv=64 CPUTot=64 CPULoad=0.00 AvailableFeatures=hpc7g ActiveFeatures=hpc7g Gres=(null) NodeAddr=10.3.140.69 NodeHostName=ip-10-3-140-69 Version=24.11.5 OS=Linux 5.10.218-208.862.amzn2.aarch64 #1 SMP Tue Jun 4 16:52:10 UTC 2024 RealMemory=124518 AllocMem=0 FreeMem=110763 Sockets=64 Boards=1 State=IDLE+CLOUD ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A Partitions=efa BootTime=2024-07-02T19:00:09 SlurmdStartTime=2024-07-08T19:33:25 LastBusyTime=2024-07-08T19:33:25 ResumeAfterTime=None CfgTRES=cpu=64,mem=124518M,billing=64 AllocTRES= CapWatts=n/a CurrentWatts=0 AveWatts=0 ExtSensorsJoules=n/a ExtSensorsWatts=0 ExtSensorsTemp=n/a Reason=Maintain Minimum Number Of Instances [root@2024-07-02T18:59:00] InstanceId=i-04927897a9ce3c143 InstanceType=hpc7g.16xlarge NodeName=hpc7g-2 Arch=aarch64 CoresPerSocket=1 CPUAlloc=0 CPUEfctv=64 CPUTot=64 CPULoad=0.00 AvailableFeatures=hpc7g ActiveFeatures=hpc7g Gres=(null) NodeAddr=10.3.132.211 NodeHostName=ip-10-3-132-211 Version=24.11.5 OS=Linux 5.10.218-208.862.amzn2.aarch64 #1 SMP Tue Jun 4 16:52:10 UTC 2024 RealMemory=124518 AllocMem=0 FreeMem=110759 Sockets=64 Boards=1 State=IDLE+CLOUD ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A Partitions=efa BootTime=2024-07-02T19:00:09 SlurmdStartTime=2024-07-08T19:33:25 LastBusyTime=2024-07-08T19:33:25 ResumeAfterTime=None CfgTRES=cpu=64,mem=124518M,billing=64 AllocTRES= CapWatts=n/a CurrentWatts=0 AveWatts=0 ExtSensorsJoules=n/a ExtSensorsWatts=0 ExtSensorsTemp=n/a Reason=Maintain Minimum Number Of Instances [root@2024-07-02T18:59:00] InstanceId=i-0a2c82623cb1393a7 InstanceType=hpc7g.16xlarge
Connect ke salah satu node (dalam kasus ini,hpc7g-1
) menggunakan SSH (atau SSM). Perhatikan bahwa ini adalah alamat IP internal, jadi Anda mungkin perlu terhubung dari salah satu node login Anda jika Anda menggunakan SSH. Ketahuilah juga bahwa instance perlu dikonfigurasi dengan kunci SSH melalui templat peluncuran grup node komputasi.
% ssh ec2-user@10.3.140.69
Sekarang, luncurkan fi_pingpong
dalam mode server.
/opt/amazon/efa/bin/fi_pingpong -p efa
Connect ke instance kedua (hpc7g-2
).
% ssh ec2-user@10.3.132.211
Jalankan fi_pingpong
dalam mode klien, sambungkan ke server aktifhpc7g-1
. Anda akan melihat output yang menyerupai contoh di bawah ini.
% /opt/amazon/efa/bin/fi_pingpong -p efa 10.3.140.69 bytes #sent #ack total time MB/sec usec/xfer Mxfers/sec 64 10 =10 1.2k 0.00s 3.08 20.75 0.05 256 10 =10 5k 0.00s 21.24 12.05 0.08 1k 10 =10 20k 0.00s 82.91 12.35 0.08 4k 10 =10 80k 0.00s 311.48 13.15 0.08 [error] util/pingpong.c:1876: fi_close (-22) fid 0