Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Colocar em quarentena, substituir ou reinicializar manualmente um nó

Modo de foco
Colocar em quarentena, substituir ou reinicializar manualmente um nó - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Saiba como colocar em quarentena, substituir e reinicializar manualmente um nó com defeito nos clusters do SageMaker HyperPod orquestrados com o Amazon EKS.

Para colocar um nó em quarentena e forçar a exclusão de um pod de treinamento

kubectl cordon <node-name>

Após a quarentena, force a ejeção do Pod. Isso é útil quando você vê que um pod está preso na terminação por mais de 30 minutos ou kubectl describe pod mostra “O nó não está pronto” em Eventos

kubectl delete pods <pod-name> --grace-period=0 --force

Para substituir um nó

Identifique o nó pelo qual substituir com sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement, o que aciona o SageMaker HyperPodRecuperação automática de nós. Observe que você também precisa ativar a recuperação automática de nós durante a criação ou atualização do cluster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

Para reinicializar um nó

Identifique o nó com o qual reinicializar sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot, o que aciona o SageMaker HyperPodRecuperação automática de nós. Observe que você também precisa ativar a recuperação automática de nós durante a criação ou atualização do cluster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

Depois que os rótulos UnschedulablePendingReplacement ou UnschedulablePendingReboot forem aplicados, você poderá ver o nó ser encerrado ou reinicializado em alguns minutos.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.