Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
SageMaker HyperPod esegue controlli approfonditi sullo stato delle istanze del cluster durante la creazione e l'aggiornamento dei cluster. HyperPod I controlli approfonditi dello stato garantiscono l'affidabilità e la stabilità dei SageMaker HyperPod cluster testando a fondo i componenti hardware e dell'infrastruttura sottostanti prima di consentire l'utilizzo dei cluster per l'addestramento di modelli di machine learning. Questo approccio proattivo aiuta a identificare e mitigare potenziali problemi nelle prime fasi del ciclo di vita del cluster.
Elenco dei controlli sanitari approfonditi eseguiti da SageMaker HyperPod
SageMaker HyperPod esegue i seguenti controlli sanitari approfonditi.
Controlli di integrità approfonditi a livello di istanza
Categoria | Nome dell'utilità | Compatibilità del tipo di istanza | Descrizione |
---|---|---|---|
Accelerator | GPU/NVLinkconta | GPU | VerificaGPU/NVLinkconta. |
Accelerator | DCGMlivello di diagnostica 4 |
GPU | Valuta lo stato e la funzionalità di NVIDIA GPUs eseguendo la diagnostica DCGM (NVIDIAData Center GPU Manager) a livello 4, inclusi test di memoria aggiuntivi. |
Accelerator | Sistemi neuronali | Trainium | Per le istanze alimentate da Trainium, lo stato dei dispositivi Neuron è determinato dalla lettura dei contatori dei sistemi Neuron propagati direttamente dal driver Neuron. |
Accelerator | Controllo dell'hardware Neuron | Trainium | Esegue un carico di lavoro di addestramento per produrre numeri, quindi verifica l'obiettivo di testare l'hardware. |
Accelerator | NCCOMtest locale | Trainium | Valuta le prestazioni delle operazioni di comunicazione collettiva su singoli nodi Trainium |
Rete | EFA | GPUe Trainium | Esegue il benchmarking della latenza e della larghezza di banda sul dispositivo collegato. EFA |
Controlli sanitari approfonditi a livello di cluster
Categoria | Nome dell'utilità | Compatibilità del tipo di istanza | Descrizione |
---|---|---|---|
Accelerator | NCCLtest | GPU | Verifica le prestazioni delle operazioni di comunicazione collettiva su più NVIDIA GPUs |
Accelerator | NCCOMtest del cluster | Trainium | Verifica le prestazioni delle operazioni di comunicazione collettiva su più nodi Trainium |
Registri dei controlli sanitari approfonditi
Di seguito sono riportati alcuni esempi di log dei controlli sanitari SageMaker HyperPod approfonditi.
Registri a livello di cluster
I log dei controlli sanitari approfonditi a livello di cluster sono archiviati nel gruppo di log all'indirizzo CloudWatch /aws/sagemaker/Clusters/<cluster_name>/<cluster_id>
I flussi di log vengono registrati in. DeepHealthCheckResults/<log_stream_id>
Come esempio illustrato di seguito, i log di output del deep health check mostrano l'ID dell'istanza che non ha superato i controlli con la causa dell'errore.
{
"level": "error",
"ts": "2024-06-18T21:15:22Z",
"msg": "Encountered FaultyInstance. Replace the Instance. Region: us-west-2, InstanceType: p4d.24xlarge. ERROR:Bandwidth has less than threshold: Expected minimum threshold :80,NCCL Test output Bw: 30"
}
Registri a livello di istanza
I log di controllo approfondito dello stato a livello di istanza sono archiviati in ogni nodo. /var/log/aws/clusterscat/sagemaker-deep-health-check.log
SSHnel nodo e apri il file di registro eseguendo il comando seguente.
cat /var/log/aws/clusterscat/sagemaker-deep-health-check.log
Di seguito è riportato un esempio di output del test di stress, NVIDIADCGM
# Hardware Stress Test output
2024-08-20T21:53:58Z info Executing Hardware stress check with command: stress-ng, and args: [--cpu 32 --vm 2 --hdd 1 --fork 8 --switch 4 --timeout 60 --metrics]
2024-08-20T21:54:58Z info stress-ng success
2024-08-20T21:54:58Z info GpuPci Count check success
# DCGM Stress Test
2024-08-20T22:25:02Z info DCGM diagnostic health summary: dcgmCheckLevel: 0 dcgmVersion: 3.3.7 gpuDriverVersion: 535.183.01, gpuDeviceIds: [2237] replacementRequired: false rebootRequired:false
# EFA Loopback Test
2024-08-20T22:26:28Z info EFA Loopback check passed for device: rdmap0s29 . Output summary is MaxBw: 58.590000, AvgBw: 32.420000, MaxTypicalLat: 30.870000, MinTypicalLat: 20.080000, AvgLat: 21.630000
Di seguito è riportato un esempio di output del test di NCCL connettività.
# size count type redop root time algbw busbw #wrong time algbw busbw #wrong
# (B) (elements) (us) (GB/s) (GB/s) (us) (GB/s) (GB/s)
8 2 float sum -1 353.9 0.00 0.00 0 304.2 0.00 0.00 0
16 4 float sum -1 352.8 0.00 0.00 0 422.9 0.00 0.00 0
32 8 float sum -1 520.0 0.00 0.00 0 480.3 0.00 0.00 0
64 16 float sum -1 563.0 0.00 0.00 0 416.1 0.00 0.00 0
128 32 float sum -1 245.1 0.00 0.00 0 308.4 0.00 0.00 0
256 64 float sum -1 310.8 0.00 0.00 0 304.9 0.00 0.00 0
512 128 float sum -1 304.9 0.00 0.00 0 300.8 0.00 0.00 0
1024 256 float sum -1 509.3 0.00 0.00 0 495.4 0.00 0.00 0
2048 512 float sum -1 530.3 0.00 0.00 0 420.0 0.00 0.00 0
4096 1024 float sum -1 391.2 0.01 0.01 0 384.5 0.01 0.01 0
8192 2048 float sum -1 328.5 0.02 0.02 0 253.2 0.03 0.03 0
16384 4096 float sum -1 497.6 0.03 0.03 0 490.9 0.03 0.03 0
32768 8192 float sum -1 496.7 0.07 0.07 0 425.0 0.08 0.08 0
65536 16384 float sum -1 448.0 0.15 0.15 0 501.0 0.13 0.13 0
131072 32768 float sum -1 577.4 0.23 0.23 0 593.4 0.22 0.22 0
262144 65536 float sum -1 757.8 0.35 0.35 0 721.6 0.36 0.36 0
524288 131072 float sum -1 1057.1 0.50 0.50 0 1019.1 0.51 0.51 0
1048576 262144 float sum -1 1460.5 0.72 0.72 0 1435.6 0.73 0.73 0
2097152 524288 float sum -1 2450.6 0.86 0.86 0 2583.1 0.81 0.81 0
4194304 1048576 float sum -1 4344.5 0.97 0.97 0 4419.3 0.95 0.95 0
8388608 2097152 float sum -1 8176.5 1.03 1.03 0 8197.8 1.02 1.02 0
16777216 4194304 float sum -1 15312 1.10 1.10 0 15426 1.09 1.09 0
33554432 8388608 float sum -1 30149 1.11 1.11 0 29941 1.12 1.12 0
67108864 16777216 float sum -1 57819 1.16 1.16 0 58635 1.14 1.14 0
134217728 33554432 float sum -1 115699 1.16 1.16 0 115331 1.16 1.16 0
268435456 67108864 float sum -1 227507 1.18 1.18 0 228047 1.18 1.18 0
536870912 134217728 float sum -1 453751 1.18 1.18 0 456595 1.18 1.18 0
1073741824 268435456 float sum -1 911719 1.18 1.18 0 911808 1.18 1.18 0
2147483648 536870912 float sum -1 1804971 1.19 1.19 0 1806895 1.19 1.19 0
2024-08-20T16:22:43.831-07:00
# Out of bounds values : 0 OK
2024-08-20T16:22:43.831-07:00
# Avg bus bandwidth : 0.488398
2024-08-20T23:22:43Z info Nccl test successful. Summary: NcclMaxAlgoBw: 1.190000, NcclAvgAlgoBw: 0.488398, NcclThresholdAlgoBw: 1.180000, NcclOutOfBoundError: OK, NcclOperations: all_reduce_perf, NcclTotalDevices: 2, NcclNodes: 2, NcclClusterMessage: