As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Saiba como colocar em quarentena, substituir e reinicializar manualmente um nó com defeito nos clusters do SageMaker HyperPod orquestrados com o Amazon EKS.
Para colocar um nó em quarentena e forçar a exclusão de um pod de treinamento
kubectl cordon
<node-name>
Após a quarentena, force a ejeção do Pod. Isso é útil quando você vê que um pod está preso na terminação por mais de 30 minutos ou kubectl describe pod
mostra “O nó não está pronto” em Eventos
kubectl delete pods
<pod-name>
--grace-period=0 --force
Para substituir um nó
Identifique o nó pelo qual substituir com sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
, o que aciona o SageMaker HyperPodRecuperação automática de nós. Observe que você também precisa ativar a recuperação automática de nós durante a criação ou atualização do cluster.
kubectl label nodes
<node-name>
\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
Para reinicializar um nó
Identifique o nó com o qual reinicializar sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
, o que aciona o SageMaker HyperPodRecuperação automática de nós. Observe que você também precisa ativar a recuperação automática de nós durante a criação ou atualização do cluster.
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
Depois que os rótulos UnschedulablePendingReplacement
ou UnschedulablePendingReboot
forem aplicados, você poderá ver o nó ser encerrado ou reinicializado em alguns minutos.