本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
了解如何在使用 Amazon EKS 编排的 SageMaker HyperPod 集群中手动隔离、替换和重启故障节点。
要隔离节点并强制删除训练容器组(pod)
kubectl cordon
<node-name>
隔离后,强制弹出容器组(pod) 如果发现容器组(pod)在终止状态下停留超过 30 分钟,或者 kubectl describe pod
在事件中显示“节点未准备就绪”,就可以使用此功能。
kubectl delete pods
<pod-name>
--grace-period=0 --force
替换节点
在要替换的节点上标记 sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
,从而触发 SageMaker HyperPod 自动节点恢复。请注意,您还需要在创建或更新集群时激活节点自动恢复功能。
kubectl label nodes
<node-name>
\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
重新启动节点
用 sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
标记要重启的节点,从而触发 SageMaker HyperPod 自动节点恢复。请注意,您还需要在创建或更新集群时激活节点自动恢复功能。
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
应用 UnschedulablePendingReplacement
或 UnschedulablePendingReboot
标签后,您应该能看到节点在几分钟内被终止或重启。