測試訓練資料 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

測試訓練資料

在訓練模型之後,Amazon Comprehend 會測試自訂分類器模型。如果您未提供測試資料集,Amazon Comprehend 會使用 90% 的訓練資料來訓練模型。它保留 10% 的培訓數據用於測試。如果您確實提供了測試資料集,則測試資料必須為訓練資料集中的每個唯一標籤包含至少一個範例。

測試模型會提供您可用來估算模型精確度的量度。主控台會在主控台「分類器詳細資訊」頁面的「分類器效能」段落中顯示測量結果。它們也會在DescribeDocumentClassifier作業傳回的Metrics欄位中傳回。

在下列範例訓練資料中,有五個標籤DOCUMENTARYDOCUMENTARY、、FICTION、SCIENCE _ DOCUMENTARY、ROMANTIC _ COMEDY。有三個獨特的類:DOCUMENTARY,SCIENCE_FICTION,ROMANTIC_ COMEDY。

第一欄 第二欄
DOCUMENTARY 文件文字 1
DOCUMENTARY 文件文字 2
SCIENCE_FICTION 文件文字 3
DOCUMENTARY 文件文字 4
ROMANTIC_COMEDY 文件文字 5

對於 auto 拆分 (Amazon Comprehend 保留 10% 用於測試的訓練資料),如果訓練資料包含特定標籤的有限範例,則測試資料集可能包含該標籤的零範例。例如,如果訓練資料集包含 1000 個DOCUMENTARY類別的執行個體、900 個 SCIENCE _ 執行個體FICTION,以及 ROMANTIC _ COMEDY 類別的單一執行個體,則測試資料集可能包含 100 DOCUMENTARY 和 90 個 SCIENCE _ FICTION 執行個體,但沒有 ROMANTIC _ COMEDY 執行個體,因為有單一範例可用。

完成模型訓練後,訓練指標會提供資訊,讓您用來決定模型是否足以滿足您的需求。