As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
O agente de monitoramento de integridade do SageMaker HyperPod monitora continuamente o status de integridade de cada instância baseada em GPU ou Trainium. Ao detectar qualquer falha na instância ou na GPU, o agente marca a instância como não íntegra.
Verificações de integridade feitas pelo agente de monitoramento de integridade SageMaker HyperPod
O agente de monitoramento de integridade do SageMaker HyperPod verifica o seguinte:
GPUs NVIDIA
-
Erros na saída
nvidia-smi
-
Vários erros nos logs gerados pela plataforma Amazon Elastic Compute Cloud (EC2)
AWS Trainium
-
Erros na saída do AWSmonitor Neuron
-
Saídas geradas pelo detector de problemas do nó do Neuron (para obter mais informações sobre o detector de problemas do nó do AWS Neuron, consulte Node problem detection and recovery for AWS Neuron nodes within Amazon EKS clusters
). -
Vários erros nos logs gerados pela plataforma Amazon EC2
Logs gerados pelo agente de monitoramento de integridade do SageMaker HyperPod
O agente de monitoramento de integridade do SageMaker HyperPod é um atributo de verificação de integridade pronto para uso e é executado continuamente em todos os clusters do HyperPod. O agente de monitoramento de integridade publica eventos de integridade detectados em instâncias de GPU ou Trn no CloudWatch no grupo de logs do cluster /aws/sagemaker/Clusters/
.
Os logs de detecção do agente de monitoramento de integridade do HyperPod são criados como fluxo de logs separados, denominados SagemakerHealthMonitoringAgent
, para cada nó. Você pode consultar os logs de detecção usando os insights de log do CloudWatch da seguinte forma:
fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/
Esse comando retorna uma saída semelhante à seguinte:
2024-08-21T11:35:35.532-07:00
{"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}
2024-08-21T11:35:35.532-07:00
{"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}