自动节点恢复 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自动节点恢复

在集群创建或更新期间,集群管理员用户可在集群级别的 Automatic(推荐)和 None 之间选择节点(实例)恢复选项。如果设置为Automatic,则 SageMaker HyperPod 自动重启或更换故障节点。

重要

我们建议设置 Automatic 选项。

当从运行状况监控座席、基本运行状况检查和深度运行状况检查中发现问题时,自动运行节点恢复。如果设置为 None,运行状况监控座席将在检测到故障时对实例进行标记,但不会在受影响的节点上自动启动任何修复或恢复操作。不建议使用该选项。