选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

手动隔离、替换或重启节点

聚焦模式
手动隔离、替换或重启节点 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

了解如何在使用 Amazon EKS 编排的 SageMaker HyperPod 集群中手动隔离、替换和重启故障节点。

要隔离节点并强制删除训练容器组(pod)

kubectl cordon <node-name>

隔离后,强制弹出容器组(pod) 如果发现容器组(pod)在终止状态下停留超过 30 分钟,或者 kubectl describe pod 在事件中显示“节点未准备就绪”,就可以使用此功能。

kubectl delete pods <pod-name> --grace-period=0 --force

替换节点

在要替换的节点上标记 sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement,从而触发 SageMaker HyperPod 自动节点恢复。请注意,您还需要在创建或更新集群时激活节点自动恢复功能。

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

重新启动节点

sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot 标记要重启的节点,从而触发 SageMaker HyperPod 自动节点恢复。请注意,您还需要在创建或更新集群时激活节点自动恢复功能。

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

应用 UnschedulablePendingReplacementUnschedulablePendingReboot 标签后,您应该能看到节点在几分钟内被终止或重启。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。