问题排查指南 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

问题排查指南

请参阅此问题排查指南,以帮助调试在计划的笔记本作业运行时可能遇到的故障。

作业定义不会创建作业

如果您的作业定义未启动任何作业,请参阅以下可能的原因:

缺少权限

  • 分配给任务定义的角色与 Amazon 没有信任关系 EventBridge。也就是说, EventBridge 不能担任角色。

  • 分配给作业定义的角色没有调用 SageMaker:StartPipelineExecution 的权限。

  • 分配给作业定义的角色没有调用 SageMaker:CreateTrainingJob 的权限。

EventBridge 已超出配额

如果您看到如下例所示的Put*错误,则说明您已超出 EventBridge配额。要解决这个问题,你可以清理未使用的 EventBridge 运行次数,或者 AWS Support 要求增加配额。

LimitExceededException) when calling the PutRule operation: The requested resource exceeds the maximum number allowed

有关 EventBridge 配额的更多信息,请参阅 Amazon EventBridge 配额

已超出管道配额限制

如果您看到如下例所示的错误,则说明已超出可运行的管道数量。要解决此问题,您可以清理账户中未使用的管道,也可以要求 AWS Support 增加配额。

ResourceLimitExceeded: The account-level service limit 'Maximum number of pipelines allowed per account' is XXX Pipelines, with current utilization of XXX Pipelines and a request delta of 1 Pipelines.

有关管道配额的更多信息,请参阅 Amazon SageMaker 终端节点和配额

已超出训练作业限制

如果您看到如下例所示的错误,则说明已超出可运行的训练作业数量。要解决这个问题,请减少账户中的培训任务数量,或者 AWS Support 要求增加配额。

ResourceLimitExceeded: The account-level service limit 'ml.m5.2xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.

有关训练作业配额的更多信息,请参阅 Amazon SageMaker 终端节点和配额

在笔记本中 SparkMagic 禁用自动可视化

如果您的 notebook 使用 SparkMagic PySpark 内核,并且您将 notebook 作为 Notebook Job 运行,则可能会在输出中看到自动可视化已被禁用。开启自动可视化会导致内核挂起,因此 notebook 作业执行器目前会禁用自动可视化作为一种解决方法。