本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
自动节点恢复
在集群创建或更新期间,集群管理员用户可在集群级别的 Automatic
(推荐)和 None
之间选择节点(实例)恢复选项。如果设置为Automatic
,则 SageMaker HyperPod 自动重启或更换故障节点。
重要
我们建议设置 Automatic
选项。
当从运行状况监控座席、基本运行状况检查和深度运行状况检查中发现问题时,自动运行节点恢复。如果设置为 None
,运行状况监控座席将在检测到故障时对实例进行标记,但不会在受影响的节点上自动启动任何修复或恢复操作。不建议使用该选项。