偵錯失敗的模型訓練 - Rekognition

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

偵錯失敗的模型訓練

您可能會在模型訓練期間遇到錯誤。Amazon Rekognition 自訂標籤會在主控台和回應中報告訓練錯誤。DescribeProjectVersions

錯誤可能是終端(培訓無法繼續),或者是非終端(培訓可以繼續)。對於與訓練和測試資料集內容相關的錯誤,您可以下載驗證結果 (資訊清單摘要,以及訓練與測試驗證資訊清單)。使用驗證結果中的錯誤代碼來尋找本節中的進一步資訊。本節還提供資訊清單檔案錯誤 (在驗證資訊清單檔案內容之前發生的終端機錯誤) 的資訊。

注意

清單是用於存儲數據集的內容的文件。

您可以使用 Amazon Rekognition 自訂標籤主控台修正一些錯誤。其他錯誤可能會要求您更新訓練或測試資訊清單檔案。您可能需要進行其他變更,例如 IAM 許可。如需詳細資訊,請參閱個別錯誤的文件。

終端機錯誤

終端機錯誤會停止模型的訓練。終端訓練錯誤有 3 種類別 — 服務錯誤、資訊清單檔案錯誤和資訊清單內容錯誤。

在主控台中,Amazon Rekognition 自訂標籤會在專案頁面的「狀態訊息」欄中顯示模型的終端機錯誤。

如果您使用 AWS SDK,則可以通過檢查響應來DescribeProjectVersions了解終端機清單文件錯誤或終端機清單內容錯誤是否發生了。在此情況下,Status值為TRAINING_FAILEDStatusMessage欄位包含錯誤。

服務錯誤

當 Amazon Rekognition 遇到服務問題且無法繼續訓練時,就會發生終端機服務錯誤。例如,Amazon Rekognition 自訂標籤所依賴的另一項服務失敗。Amazon Rekognition 自訂標籤會在主控台中報告服務錯誤,因為 Amazon Rekognition 遇到服務問題。如果您使用 AWS SDK,則訓練期間發生的服務錯誤會由 CreateProjectVersionand 引發為InternalServerError例外狀況DescribeProjectVersions

如果發生服務錯誤,請重試模型的訓練。如果培訓持續失敗,請聯絡 AWS Support,並包含任何回報服務錯誤的錯誤資訊。

終端機清單檔錯誤

資訊清單檔案錯誤是指在訓練和測試資料集中發生在檔案層級或跨多個檔案的終端機錯誤。在驗證訓練和測試資料集的內容之前,會偵測到資訊清單檔案錯誤。資訊清單檔案錯誤會防止報告非終端驗證錯誤。例如,一個空的訓練清單文件生成一個清單文件是空的錯誤。由於檔案為空,因此無法報告非終端 JSON Line 驗證錯誤。資訊清單摘要也不會建立。

您必須先修正資訊清單檔案錯誤,才能訓練模型。

以下列出資訊清單檔案錯誤。

終端資訊內容錯誤

資訊清單內容錯誤是與資訊清單中的內容相關的終端機錯誤。例如,如果您收到錯誤資訊清單檔案包含每個標籤的標籤影像不足以執行自動分割,訓練無法完成,因為訓練資料集中沒有足夠的標籤影像無法建立測試資料集。

除了在控制台和來自的響應中報告錯誤之外DescribeProjectVersions,還會在清單摘要中報告錯誤以及任何其他終端機清單內容錯誤。如需詳細資訊,請參閱了解資訊清單摘要

非終端 JSON 行錯誤也會在單獨的訓練和測試驗證結果清單中報告。Amazon Rekognition 自訂標籤找到的非終端 JSON 行錯誤不一定與停止訓練的資訊清單內容錯誤相關。如需詳細資訊,請參閱了解培訓和測試驗證結果清單

您必須先修正資訊清單內容錯誤,才能訓練模型。

以下是資訊清單內容錯誤的錯誤訊息。

非終端 JSON 行驗證錯誤

JSON 線路驗證錯誤是非終端錯誤,不需要 Amazon Rekognition 自訂標籤即可停止訓練模型。

JSON 行驗證錯誤不會顯示在控制台中。

在訓練和測試資料集中,JSON Line 代表單一影像的訓練或測試資訊。JSON Line 中的驗證錯誤 (例如無效的影像) 會在訓練和測試驗證資訊清單中報告。Amazon Rekognition 自訂標籤會使用資訊清單中的其他有效 JSON 行完成訓練。如需詳細資訊,請參閱了解培訓和測試驗證結果清單。如需驗證規則的詳細資訊,請參閱清單檔案的驗證規則

注意

如果 JSON 行錯誤太多,則訓練會失敗。

我們建議您也修正非終端 JSON Line 錯誤錯誤,因為這些錯誤可能會造成 future 錯誤或影響您的模型訓練。

Amazon Rekognition 自訂標籤可以產生下列非終端 JSON 行驗證錯誤。