Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Agente de monitoramento de integridade do SageMaker HyperPod

Modo de foco
Agente de monitoramento de integridade do SageMaker HyperPod - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

O agente de monitoramento de integridade do SageMaker HyperPod monitora continuamente o status de integridade de cada instância baseada em GPU ou Trainium. Ao detectar qualquer falha na instância ou na GPU, o agente marca a instância como não íntegra.

Verificações de integridade feitas pelo agente de monitoramento de integridade SageMaker HyperPod

O agente de monitoramento de integridade do SageMaker HyperPod verifica o seguinte:

GPUs NVIDIA

AWS Trainium

Logs gerados pelo agente de monitoramento de integridade do SageMaker HyperPod

O agente de monitoramento de integridade do SageMaker HyperPod é um atributo de verificação de integridade pronto para uso e é executado continuamente em todos os clusters do HyperPod. O agente de monitoramento de integridade publica eventos de integridade detectados em instâncias de GPU ou Trn no CloudWatch no grupo de logs do cluster /aws/sagemaker/Clusters/.

Os logs de detecção do agente de monitoramento de integridade do HyperPod são criados como fluxo de logs separados, denominados SagemakerHealthMonitoringAgent, para cada nó. Você pode consultar os logs de detecção usando os insights de log do CloudWatch da seguinte forma:

fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/

Esse comando retorna uma saída semelhante à seguinte:

2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}
PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.