訓練自訂分類器 (主控台) - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

訓練自訂分類器 (主控台)

您可以使用控制台創建和訓練自定義分類器,然後使用自定義分類器來分析您的文檔。

若要訓練自訂分類器,您需要一組訓練文件。您可以使用您希望文件分類器辨識的類別來標示這些文件。如需有關準備訓練文件的資訊,請參閱準備分類器訓練資料

若要建立和訓練文件分類器模型
  1. 登入 AWS Management Console 並開啟亞馬遜主控台,網址為 https://console.aws.amazon.com/comprehend/

  2. 從左側功能表中選擇「自」,然後選擇「自訂分類」。

  3. 選擇「建立新模型」。

  4. 模型設定下,輸入分類器的型號名稱。該名稱在您的帳戶和當前區域中必須是唯一的。

    (選擇性) 輸入版本名稱。該名稱在您的帳戶和當前區域中必須是唯一的。

  5. 選取訓練文件的語言。若要查看分類器支援的語言,請參閱訓練分類模型

  6. (選擇性) 如果您想要在 Amazon Comprehend 處理訓練任務時加密儲存磁碟區中的資料,請選擇分類器加密。然後選擇要使用與您目前帳戶相關聯的 KMS 金鑰,還是使用另一個帳戶的 KMS 金鑰。

    • 如果您使用與目前帳戶相關聯的金鑰,請選擇 KMS 金鑰識別碼的金鑰識別碼

    • 如果您使用與其他帳戶相關聯的金鑰,請在 KMS 金鑰 ARN 下輸入金鑰識別碼的 AR N。

    注意

    如需建立和使用 KMS 金鑰及相關加密的詳細資訊,請參閱 AWS Key Management Service (AWS KMS)

  7. 在 [資料規格] 下,選擇要使用的訓練模型類型

    • 純文字文件:選擇此選項可建立純文字模型。使用純文字文件訓練模型。

    • 原生文件:選擇此選項可建立原生文件模型。使用原生文件 (PDF、Word、影像) 訓練模型。

  8. 選擇訓練資料的資料格式。若要取得有關資料格式的資訊,請參閱分類器訓練檔案格式

    • CSV 檔案:如果訓練資料使用 CSV 檔案格式,請選擇此選項。

    • 增強資訊清單:如果您使用 Ground Truth 為訓練資料建立增強資訊清單檔案,請選擇此選項。如果您選擇純文字文件做為訓練模型類型,則可使用此格式。

  9. 選擇要使用的分類器模式

    • 單一標籤模式:如果您指派給文件的類別是互斥的,而且您正在訓練分類器為每個文件指派一個標籤,請選擇此模式。在 Amazon Comprehend API,單標籤模式被稱為多類模式。

    • 多標籤模式:如果可以同時將多個類別套用至文件,而且您正在訓練分類器為每份文件指派一或多個標籤,請選擇此模式。

  10. 如果選擇「多重標籤」模式,則可以為標籤選取「分隔符號」。當訓練文件有多個類別時,請使用此分隔符號字元來分隔標籤。預設分隔符號為直線字元。

  11. (選擇性) 如果您選擇增強資訊清單做為資料格式,您最多可以輸入五個擴增資訊清單檔案。每個擴增資訊清單檔案都包含訓練資料集或測試資料集。您必須提供至少一個訓練資料集。測試數據集是可選的。使用下列步驟來設定增強資訊清單檔案:

    1. 在 [訓練和測試資料集] 下,展開 [輸入位置] 面板。

    2. 在資料集類型中,選擇訓練資料測試資料

    3. 對於 G SageMaker round Truth 增強資訊清單檔案 S3 位置,請輸入包含資訊清單檔案的 Amazon S3 儲存貯體的位置,或選擇瀏覽 S3 瀏覽至該儲存貯體。您用於訓練任務存取權限的 IAM 角色必須具有 S3 儲存貯體的讀取權限。

    4. 對於「屬性」名稱,請輸入包含註釋的屬性名稱。如果檔案包含來自多個鏈結標籤工作的註釋,請為每個工作新增一個屬性。

    5. 若要新增其他輸入位置,請選擇 [新增輸入位置],然後設定下一個位置。

  12. (選擇性) 如果您選擇 CSV 檔案做為資料格式,請使用下列步驟來設定訓練資料集和選擇性測試資料集:

    1. 訓練資料集下,輸入包含訓練資料 CSV 檔案的 Amazon S3 儲存貯體的位置,或選擇瀏覽 S3 來瀏覽至該儲存貯體。您用於訓練任務存取權限的 IAM 角色必須具有 S3 儲存貯體的讀取權限。

      (選擇性) 如果您選擇原生文件做為訓練模型類型,您也會提供包含訓練範例檔案之 Amazon S3 資料夾的 URL。

    2. 在「測試資料集」下,選取是否要為 Amazon Comprehend 提供額外資料,以測試訓練過的模型。

      • 自動分割:自動分割會自動選取 10% 的訓練資料,以便保留做為測試資料使用。

      • (選擇性) 客戶提供:在 Amazon S3 中輸入測試資料 CSV 檔案的網址。您也可以導覽至 Amazon S3 中的位置,然後選擇選取資料夾

        (選擇性) 如果您選擇原生文件做為訓練模型類型,您也會提供包含測試檔案之 Amazon S3 資料夾的 URL。

  13. (選擇性) 對於「文件」讀取模式,您可以覆寫預設的文字擷取動作。純文字模型不需要此選項,因為它適用於掃描文件的文字擷取。如需詳細資訊,請參閱 設定文字擷取選項

  14. (純文字模型為選用) 對於輸出資料,請輸入 Amazon S3 儲存貯體的位置以儲存訓練輸出資料,例如混淆矩陣。如需詳細資訊,請參閱 混淆矩陣

    (選擇性) 如果您選擇加密訓練工作的輸出結果,請選擇「加密」。然後選擇要使用與目前帳戶相關聯的 KMS 金鑰,還是使用另一個帳戶的 KMS 金鑰。

    • 如果您使用與目前帳戶相關聯的金鑰,請選擇 KMS 金鑰 ID 的金鑰別名。

    • 如果您使用與其他帳戶相關聯的金鑰,請在 KMS 金鑰 ID 下輸入金鑰別名或 ID 的 ARN。

  15. 對於 IAM 角色,請選擇選擇現有的 IAM 角色,然後為包含訓練文件的 S3 儲存貯體選擇具有讀取許可的現有 IAM 角色。角色必須具有開頭comprehend.amazonaws.com為有效的信任原則。

    如果您還沒有具有這些許可的 IAM 角色,請選擇「建立 IAM 角色」以建立 IAM 角色。選擇要授與此角色的存取權限,然後選擇名稱尾碼,以區分該角色與帳戶中的 IAM 角色。

    注意

    對於加密的輸入文件,所使用的 IAM 角色也必須具有kms:Decrypt權限。如需詳細資訊,請參閱 使用 KMS 加密所需的權限

  16. (選擇性) 若要從 VPC 將資源啟動至 Amazon Comprehend,請在 VPC 下輸入虛擬私人雲端識別碼,或從下式清單中選擇識別碼。

    1. 在「子網路」下選擇子網路。選取第一個子網路後,您可以選擇其他子網路。

    2. 在「安全性群組」下,選擇要使用的安全性群組 (如果您已指定安全性群組)。選取第一個安全性群組後,您可以選擇其他群組。

    注意

    當您將 VPC 與分類工作搭配使用時,DataAccessRole用於「建立」和「啟動」作業的 VPC 必須具有存取輸入文件和輸出值區的 VPC 權限。

  17. (選擇性) 若要將標籤新增至自訂分類器,請在「標籤」下輸入鍵值配對。選擇 Add tag (新增標籤)。若要在建立分類器之前移除此配對,請選擇 [移除標籤]。如需詳細資訊,請參閱 標記您的  資源

  18. 選擇 Create (建立)。

主控台會顯示「分類器」頁面。新的分類器會顯示在表格中,顯示Submitted為其狀態。當分類器開始處理訓練文件時,狀態會變更為Training。當分類器準備好可供使用時,狀態會變更為TrainedTrained with warnings。如果狀態為TRAINED_WITH_WARNINGS,請檢閱中略過的檔案資料夾分類器訓練輸出

如果 Amazon Comprehend 在建立或訓練期間遇到錯誤,狀態會變更為。In error您可以在表格中選擇分類器工作,以取得有關分類器的詳細資訊,包括任何錯誤訊息。

自定義分類器列表。