本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
手動隔離、取代或重新啟動節點
了解如何手動隔離、取代和重新啟動與 Amazon 協調的叢集中的 SageMaker HyperPod故障節點EKS。
若要隔離節點並強制刪除訓練 Pod
kubectl cordon
<node-name>
隔離後,強制退出 Pod。當您看到 Pod 停滯在終止狀態超過 30 分鐘,或在事件中kubectl describe pod
顯示「節點尚未就緒」時,這很有用
kubectl delete pods
<pod-name>
--grace-period=0 --force
若要取代節點
使用 標記要取代的節點sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
,這會觸發 SageMaker HyperPod 自動節點復原。請注意,您也需要在叢集建立或更新期間啟用自動節點復原。
kubectl label nodes
<node-name>
\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
若要重新啟動節點
使用 標記要重新啟動的節點sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
,這會觸發 SageMaker HyperPod 自動節點復原。請注意,您也需要在叢集建立或更新期間啟用自動節點復原。
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
套用標籤UnschedulablePendingReplacement
或 UnschedulablePendingReboot
之後,您應該能夠看到節點終止或在幾分鐘內重新啟動。