(Facultatif) Testez EFA - AWS PCS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

(Facultatif) Testez EFA

Vous pouvez démontrer la communication compatible EFA entre deux nœuds d'un groupe de nœuds de calcul en exécutant le fi_pingpong programme, qui est inclus dans l'installation du logiciel EFA. Si ce test est réussi, il est probable que l'EFA soit correctement configuré.

Pour commencer, vous avez besoin de deux instances actives dans le groupe de nœuds de calcul. Si votre groupe de nœuds de calcul utilise une capacité statique, des instances devraient déjà être disponibles. Pour un groupe de nœuds de calcul qui utilise la capacité dynamique, vous pouvez lancer deux nœuds à l'aide de la salloc commande. Voici un exemple d'un cluster avec un groupe de nœuds dynamique nommé hpc7g associé à une file d'attente nomméeall.

% salloc --nodes 2 -p all
salloc: Granted job allocation 6
salloc: Waiting for resource configuration
... a few minutes pass ...
salloc: Nodes hpc7g-[1-2] are ready for job

Découvrez l'adresse IP des deux nœuds alloués à l'aide descontrol. Dans l'exemple qui suit, les adresses sont 10.3.140.69 pour hpc7g-1 et 10.3.132.211 pourhpc7g-2.

% scontrol show nodes hpc7g-[1-2]
NodeName=hpc7g-1 Arch=aarch64 CoresPerSocket=1
   CPUAlloc=0 CPUEfctv=64 CPUTot=64 CPULoad=0.00
   AvailableFeatures=hpc7g
   ActiveFeatures=hpc7g
   Gres=(null)
   NodeAddr=10.3.140.69 NodeHostName=ip-10-3-140-69 Version=24.11.5
   OS=Linux 5.10.218-208.862.amzn2.aarch64 #1 SMP Tue Jun 4 16:52:10 UTC 2024
   RealMemory=124518 AllocMem=0 FreeMem=110763 Sockets=64 Boards=1
   State=IDLE+CLOUD ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
   Partitions=efa
   BootTime=2024-07-02T19:00:09 SlurmdStartTime=2024-07-08T19:33:25
   LastBusyTime=2024-07-08T19:33:25 ResumeAfterTime=None
   CfgTRES=cpu=64,mem=124518M,billing=64
   AllocTRES=
   CapWatts=n/a
   CurrentWatts=0 AveWatts=0
   ExtSensorsJoules=n/a ExtSensorsWatts=0 ExtSensorsTemp=n/a
   Reason=Maintain Minimum Number Of Instances [root@2024-07-02T18:59:00]
   InstanceId=i-04927897a9ce3c143 InstanceType=hpc7g.16xlarge

NodeName=hpc7g-2 Arch=aarch64 CoresPerSocket=1
   CPUAlloc=0 CPUEfctv=64 CPUTot=64 CPULoad=0.00
   AvailableFeatures=hpc7g
   ActiveFeatures=hpc7g
   Gres=(null)
   NodeAddr=10.3.132.211 NodeHostName=ip-10-3-132-211 Version=24.11.5
   OS=Linux 5.10.218-208.862.amzn2.aarch64 #1 SMP Tue Jun 4 16:52:10 UTC 2024
   RealMemory=124518 AllocMem=0 FreeMem=110759 Sockets=64 Boards=1
   State=IDLE+CLOUD ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
   Partitions=efa
   BootTime=2024-07-02T19:00:09 SlurmdStartTime=2024-07-08T19:33:25
   LastBusyTime=2024-07-08T19:33:25 ResumeAfterTime=None
   CfgTRES=cpu=64,mem=124518M,billing=64
   AllocTRES=
   CapWatts=n/a
   CurrentWatts=0 AveWatts=0
   ExtSensorsJoules=n/a ExtSensorsWatts=0 ExtSensorsTemp=n/a
   Reason=Maintain Minimum Number Of Instances [root@2024-07-02T18:59:00]
   InstanceId=i-0a2c82623cb1393a7 InstanceType=hpc7g.16xlarge

Connectez-vous à l'un des nœuds (dans ce cas,hpc7g-1) à l'aide de SSH (ou SSM). Notez qu'il s'agit d'une adresse IP interne, vous devrez peut-être vous connecter depuis l'un de vos nœuds de connexion si vous utilisez SSH. Sachez également que l'instance doit être configurée avec une clé SSH via le modèle de lancement du groupe de nœuds de calcul.

% ssh ec2-user@10.3.140.69

Maintenant, fi_pingpong lancez-vous en mode serveur.

/opt/amazon/efa/bin/fi_pingpong -p efa

Connectez-vous à la deuxième instance (hpc7g-2).

% ssh ec2-user@10.3.132.211

Exécuter fi_pingpong en mode client, en se connectant au serveur surhpc7g-1. Vous devriez voir une sortie similaire à l'exemple ci-dessous.

% /opt/amazon/efa/bin/fi_pingpong -p efa 10.3.140.69

bytes   #sent   #ack     total       time     MB/sec    usec/xfer   Mxfers/sec
64      10      =10      1.2k        0.00s      3.08      20.75       0.05
256     10      =10      5k          0.00s     21.24      12.05       0.08
1k      10      =10      20k         0.00s     82.91      12.35       0.08
4k      10      =10      80k         0.00s    311.48      13.15       0.08
[error] util/pingpong.c:1876: fi_close (-22) fid 0