Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Karantina, ganti, atau reboot node secara manual
Pelajari cara mengkarantina, mengganti, dan me-reboot node yang salah secara manual di SageMaker HyperPod cluster yang diatur dengan Amazon. EKS
Untuk mengkarantina sebuah node dan memaksa menghapus pod pelatihan
kubectl cordon
<node-name>
Setelah karantina, paksa mengeluarkan Pod. Ini berguna ketika Anda melihat pod macet dalam penghentian selama lebih dari 30 menit atau kubectl describe pod
menunjukkan 'Node tidak siap' di Acara
kubectl delete pods
<pod-name>
--grace-period=0 --force
Untuk mengganti node
Beri label pada node yang akan diganti dengansagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
, yang memicu. SageMaker HyperPod Pemulihan simpul otomatis Perhatikan bahwa Anda juga perlu mengaktifkan pemulihan node otomatis selama pembuatan atau pembaruan cluster.
kubectl label nodes
<node-name>
\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
Untuk me-reboot sebuah node
Beri label pada node untuk rebootsagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
, yang memicu. SageMaker HyperPod Pemulihan simpul otomatis Perhatikan bahwa Anda juga perlu mengaktifkan pemulihan node otomatis selama pembuatan atau pembaruan cluster.
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
Setelah label UnschedulablePendingReplacement
atau UnschedulablePendingReboot
diterapkan, Anda akan dapat melihat node dihentikan atau reboot dalam beberapa menit.