疑難排解 Amazon SageMaker 模型建置管道 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

疑難排解 Amazon SageMaker 模型建置管道

使用 Amazon SageMaker 模型建置管道時,您可能會因各種原因而遇到問題。本主題提供與常見錯誤及解決方法相關的資訊。

管道定義問題

您的管道定義可能未正確格式化。這可能會導致 執行失敗或工作不正確。建立或執行管道時,可能會發現這些錯誤。如果您的定義未驗證,P SageMaker ipeline 會傳回錯誤訊息,識別 JSON 檔案格式錯誤的字元。若要修正此問題,請檢閱使用 SageMaker Python SDK 建立的步驟,以確保正確性。

您只能在管道定義中包含一次步驟。因此,在同一管道中,步驟不能同時作為條件步驟管道的一部分存在。

檢查管道日誌

您可以使用下列命令來檢視步驟的狀態:

execution.list_steps()

每個步驟都包含下列資訊:

  • 管線啟動的實體的 ARN,例如 SageMaker 工作 ARN、模型 ARN 或模型封裝 ARN。

  • 失敗原因包括步驟失敗的簡要說明。

  • 如果步驟是條件步驟,則會包含條件是否評估為真或假。 

  • 如果執行作業重複使用先前的任務執行,則 CacheHit 會列出來源執行項目。 

您也可以在 Amazon SageMaker 工作室界面中檢視錯誤訊息和日誌。如需有關如何在 Studio 中查看日誌的資訊,請參閱檢視管道執行

缺少許可

建立管道執行的角色以及在管道執行中建立每個作業的步驟都需要正確的權限。如果沒有這些權限,您可能無法按預期提交管道執行或執行 SageMaker 工作。要確保正確設定許可,請參閱IAM 存取管理

工作執行錯誤

由於定義 SageMaker 工作功能的指令碼中的問題,因此在執行步驟時可能會遇到問題。每個工作都有一組記 CloudWatch 錄檔。 若要從 Studio 檢視這些記錄檔,請參閱檢視管道執行。如需搭配使用 CloudWatch 記錄檔的詳細資訊 SageMaker,請參閱記錄 Amazon SageMaker 活動與 Amazon CloudWatch

屬性檔錯誤

如果在管道中錯誤地實作屬性檔,您可能會遇到問題。要確保屬性檔按預期實作,請參閱在步驟之間傳遞資料