本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
服务环境状态定义
服务环境可以处于四种可能的状态之一,这些状态表明其当前的运行状态和处理 SageMaker 培训作业的准备情况。每个状态都代表服务环境生命周期中的一个特定阶段,从最初的创建到运行就绪再到最终删除。下表描述了每种状态及其含义:
状态 | 描述 |
---|---|
CREATING |
创建服务环境时的初始状态。在此状态下, AWS Batch 验证配置参数并建立与 SageMaker AI 服务的集成。服务环境无法处理作业,与之关联的任何作业队列都不会接受服务作业提交。对于正确配置的服务环境,创建过程通常会在几秒钟内完成。 |
VALID |
表示服务环境已通过所有配置验证检查并准备好处理 SageMaker 训练作业的操作状态。此状态表示服务环境配置正确,所有必需的权限都已到位,并且 AWS Batch 可以代表您成功向 SageMaker AI 提交作业。服务环境的大部分运营生命周期都处于这种状态。 |
INVALID |
一种状态,表示服务环境遇到了无法处理 SageMaker 训练作业的配置或权限问题。在底层问题得到解决之前,与无效服务环境关联的任务队列无法处理新的服务作业提交。 |
DELETING |
请求删除服务环境时出现的状态。在此状态下, AWS Batch 确保没有活动的 T SageMaker raining 作业与环境相关联,并执行必要的清理操作。处于此状态的服务环境无法处理新提交的作业,并且一旦所有关联的资源都被正确清理完毕,删除过程即告完成。 |
服务环境状态转换
服务环境状态转换会根据配置更改、验证结果和运行状况监控自动发生。该 AWS Batch 服务持续监控服务环境的运行状况并相应地更新状态。了解这些转换有助于您预测配置更改何时生效,以及如何解决导致无效状态的问题。
成功创建和验证后,服务环境CREATING
将从过渡到VALID
。此过渡确认所有配置参数均正确,所需的 IAM 权限配置正确,服务环境可以成功与 SageMaker AI 服务集成。一旦进入该VALID
状态,关联的作业队列就可以开始处理服务作业提交了。
INVALID
当配置验证失败或依赖关系不可用时,服务环境会从VALID
变为。这可能是由于 IAM 角色修改、容量限制更改违反配额或影响服务环境运行能力的外部资源修改所致。状态原因字段提供了有关导致无效状态的原因的具体细节。
基本问题得到解决INVALID
后,服务环境可以恢复到VALID
从。这可能涉及更新 IAM 权限、更正容量配置或恢复对所需 AWS 资源的访问权限。通常,一旦 AWS Batch 检测到配置问题已得到解决,就会自动进行过渡。