故障診斷指南 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

故障診斷指南

請參閱此疑難排解指南,以協助您對筆記本工作執行排程期間時可能遇到的失敗進行偵錯。

工作定義不會建立工作

如果工作定義未啟動任何工作,請參閱下列可能原因:

缺少許可

  • 指派給任務定義的角色與 Amazon 沒有信任關係 EventBridge。也就是說, EventBridge 不能承擔的角色。

  • 指派給工作定義的角色沒有呼叫 SageMaker:StartPipelineExecution 的許可。

  • 指派給工作定義的角色沒有呼叫 SageMaker:CreateTrainingJob 的許可。

EventBridge 超過配額

如果您看到下列範例之類的Put*錯誤,表示您已超過 EventBridge配額。若要解決此問題,您可以清除未使用的 EventBridge 執行,或 AWS Support 要求增加配額。

LimitExceededException) when calling the PutRule operation: The requested resource exceeds the maximum number allowed

如需有關 EventBridge 配額的詳細資訊,請參閱 Amazon EventBridge 配額

超過管道配額限制

如果您看到與下列範例類似的錯誤,則表示已超出可執行的管道數。若要解決此問題,您可以清除帳戶中未使用的管道,或要求 AWS Support 增加配額。

ResourceLimitExceeded: The account-level service limit 'Maximum number of pipelines allowed per account' is XXX Pipelines, with current utilization of XXX Pipelines and a request delta of 1 Pipelines.

如需管道配額的詳細資訊,請參閱 Amazon SageMaker 端點和配額

超過訓練工作限制

如果您看到與下列範例類似的錯誤,則表示已超出可執行的訓練工作數。若要解決此問題,請減少帳戶中的訓練工作數量,或 AWS Support 要求增加配額。

ResourceLimitExceeded: The account-level service limit 'ml.m5.2xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.

如需有關訓練任務配額的詳細資訊,請參閱 Amazon SageMaker 端點和配額

SparkMagic 記事本中已停用自動視覺

如果您的筆記本使用 SparkMagic PySpark 核心,而您將筆記本當做筆記本 Job 執行,您可能會看到輸出中已停用 auto 視覺效果。開啟 auto 視覺效果會導致核心當機,因此筆記本工作執行程式目前停用 auto 視覺效果做為因應措施。