本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
訓練自訂分類器 (主控台)
您可以使用控制台創建和訓練自定義分類器,然後使用自定義分類器來分析您的文檔。
若要訓練自訂分類器,您需要一組訓練文件。您可以使用您希望文件分類器辨識的類別來標示這些文件。如需有關準備訓練文件的資訊,請參閱準備分類器訓練資料。
若要建立和訓練文件分類器模型
-
登入 AWS Management Console 並開啟亞馬遜主控台,網址為 https://console.aws.amazon.com/comprehend/
-
從左側功能表中選擇「自訂」,然後選擇「自訂分類」。
-
選擇「建立新模型」。
-
在模型設定下,輸入分類器的型號名稱。該名稱在您的帳戶和當前區域中必須是唯一的。
(選擇性) 輸入版本名稱。該名稱在您的帳戶和當前區域中必須是唯一的。
-
選取訓練文件的語言。若要查看分類器支援的語言,請參閱訓練分類模型。
-
(選擇性) 如果您想要在 Amazon Comprehend 處理訓練任務時加密儲存磁碟區中的資料,請選擇分類器加密。然後選擇要使用與您目前帳戶相關聯的 KMS 金鑰,還是使用另一個帳戶的 KMS 金鑰。
如果您使用與目前帳戶相關聯的金鑰,請選擇 KMS 金鑰識別碼的金鑰識別碼。
如果您使用與其他帳戶相關聯的金鑰,請在 KMS 金鑰 ARN 下輸入金鑰識別碼的 AR N。
注意
如需建立和使用 KMS 金鑰及相關加密的詳細資訊,請參閱 AWS Key Management Service (AWS KMS)。
-
在 [資料規格] 下,選擇要使用的訓練模型類型。
純文字文件:選擇此選項可建立純文字模型。使用純文字文件訓練模型。
原生文件:選擇此選項可建立原生文件模型。使用原生文件 (PDF、Word、影像) 訓練模型。
-
選擇訓練資料的資料格式。若要取得有關資料格式的資訊,請參閱分類器訓練檔案格式。
CSV 檔案:如果訓練資料使用 CSV 檔案格式,請選擇此選項。
增強資訊清單:如果您使用 Ground Truth 為訓練資料建立增強資訊清單檔案,請選擇此選項。如果您選擇純文字文件做為訓練模型類型,則可使用此格式。
-
選擇要使用的分類器模式。
單一標籤模式:如果您指派給文件的類別是互斥的,而且您正在訓練分類器為每個文件指派一個標籤,請選擇此模式。在 Amazon Comprehend API,單標籤模式被稱為多類模式。
多標籤模式:如果可以同時將多個類別套用至文件,而且您正在訓練分類器為每份文件指派一或多個標籤,請選擇此模式。
-
如果選擇「多重標籤」模式,則可以為標籤選取「分隔符號」。當訓練文件有多個類別時,請使用此分隔符號字元來分隔標籤。預設分隔符號為直線字元。
-
(選擇性) 如果您選擇增強資訊清單做為資料格式,您最多可以輸入五個擴增資訊清單檔案。每個擴增資訊清單檔案都包含訓練資料集或測試資料集。您必須提供至少一個訓練資料集。測試數據集是可選的。使用下列步驟來設定增強資訊清單檔案:
-
在 [訓練和測試資料集] 下,展開 [輸入位置] 面板。
-
在資料集類型中,選擇訓練資料或測試資料。
-
對於 G SageMaker round Truth 增強資訊清單檔案 S3 位置,請輸入包含資訊清單檔案的 Amazon S3 儲存貯體的位置,或選擇瀏覽 S3 瀏覽至該儲存貯體。您用於訓練任務存取權限的 IAM 角色必須具有 S3 儲存貯體的讀取權限。
-
對於「屬性」名稱,請輸入包含註釋的屬性名稱。如果檔案包含來自多個鏈結標籤工作的註釋,請為每個工作新增一個屬性。
若要新增其他輸入位置,請選擇 [新增輸入位置],然後設定下一個位置。
-
-
(選擇性) 如果您選擇 CSV 檔案做為資料格式,請使用下列步驟來設定訓練資料集和選擇性測試資料集:
-
在訓練資料集下,輸入包含訓練資料 CSV 檔案的 Amazon S3 儲存貯體的位置,或選擇瀏覽 S3 來瀏覽至該儲存貯體。您用於訓練任務存取權限的 IAM 角色必須具有 S3 儲存貯體的讀取權限。
(選擇性) 如果您選擇原生文件做為訓練模型類型,您也會提供包含訓練範例檔案之 Amazon S3 資料夾的 URL。
-
在「測試資料集」下,選取是否要為 Amazon Comprehend 提供額外資料,以測試訓練過的模型。
-
自動分割:自動分割會自動選取 10% 的訓練資料,以便保留做為測試資料使用。
(選擇性) 客戶提供:在 Amazon S3 中輸入測試資料 CSV 檔案的網址。您也可以導覽至 Amazon S3 中的位置,然後選擇選取資料夾。
(選擇性) 如果您選擇原生文件做為訓練模型類型,您也會提供包含測試檔案之 Amazon S3 資料夾的 URL。
-
-
-
(選擇性) 對於「文件」讀取模式,您可以覆寫預設的文字擷取動作。純文字模型不需要此選項,因為它適用於掃描文件的文字擷取。如需詳細資訊,請參閱 設定文字擷取選項。
-
(純文字模型為選用) 對於輸出資料,請輸入 Amazon S3 儲存貯體的位置以儲存訓練輸出資料,例如混淆矩陣。如需詳細資訊,請參閱 混淆矩陣。
(選擇性) 如果您選擇加密訓練工作的輸出結果,請選擇「加密」。然後選擇要使用與目前帳戶相關聯的 KMS 金鑰,還是使用另一個帳戶的 KMS 金鑰。
如果您使用與目前帳戶相關聯的金鑰,請選擇 KMS 金鑰 ID 的金鑰別名。
如果您使用與其他帳戶相關聯的金鑰,請在 KMS 金鑰 ID 下輸入金鑰別名或 ID 的 ARN。
-
對於 IAM 角色,請選擇選擇現有的 IAM 角色,然後為包含訓練文件的 S3 儲存貯體選擇具有讀取許可的現有 IAM 角色。角色必須具有開頭
comprehend.amazonaws.com
為有效的信任原則。如果您還沒有具有這些許可的 IAM 角色,請選擇「建立 IAM 角色」以建立 IAM 角色。選擇要授與此角色的存取權限,然後選擇名稱尾碼,以區分該角色與帳戶中的 IAM 角色。
注意
對於加密的輸入文件,所使用的 IAM 角色也必須具有
kms:Decrypt
權限。如需詳細資訊,請參閱 使用 KMS 加密所需的權限。 -
(選擇性) 若要從 VPC 將資源啟動至 Amazon Comprehend,請在 VPC 下輸入虛擬私人雲端識別碼,或從下拉式清單中選擇識別碼。
在「子網路」下選擇子網路。選取第一個子網路後,您可以選擇其他子網路。
在「安全性群組」下,選擇要使用的安全性群組 (如果您已指定安全性群組)。選取第一個安全性群組後,您可以選擇其他群組。
注意
當您將 VPC 與分類工作搭配使用時,
DataAccessRole
用於「建立」和「啟動」作業的 VPC 必須具有存取輸入文件和輸出值區的 VPC 權限。 -
(選擇性) 若要將標籤新增至自訂分類器,請在「標籤」下輸入鍵值配對。選擇 Add tag (新增標籤)。若要在建立分類器之前移除此配對,請選擇 [移除標籤]。如需詳細資訊,請參閱 標記您的 資源。
-
選擇 Create (建立)。
主控台會顯示「分類器」頁面。新的分類器會顯示在表格中,顯示Submitted
為其狀態。當分類器開始處理訓練文件時,狀態會變更為Training
。當分類器準備好可供使用時,狀態會變更為Trained
或Trained with warnings
。如果狀態為TRAINED_WITH_WARNINGS
,請檢閱中略過的檔案資料夾分類器訓練輸出。
如果 Amazon Comprehend 在建立或訓練期間遇到錯誤,狀態會變更為。In error
您可以在表格中選擇分類器工作,以取得有關分類器的詳細資訊,包括任何錯誤訊息。
![自定義分類器列表。](images/class-list.png)