訓練自訂辨識器 (主控台)

您可以使用 Amazon Comprehend 主控台建立自訂實體辨識器。本節說明如何建立和訓練自訂實體辨識器。

主題

若要建立自訂實體辨識器，請先提供資料集來訓練模型。在此資料集中，包括下列其中一項：一組已註解的文件或實體清單及其類型標籤，以及包含這些實體的一組文件。如需更多資訊，請參閱自訂實體辨識

使用 CSV 檔案訓練自訂實體辨識器

登入 AWS Management Console 並開啟亞馬遜主控台，網址為 https://console.aws.amazon.com/comprehend/
從左側功能表中選擇 [自訂]，然後選擇 [自訂實體辨識]。
選擇「建立新模型」。
給識別器一個名字。該名稱在「地區」和帳戶中必須是唯一的。
選取語言。
在 [自訂實體類型] 下，輸入您希望辨識器在資料集中尋找的自訂標籤。

實體類型必須是大寫的，如果它由一個以上的單詞組成，則用底線分隔單詞。
選擇 [新增類型]。
如果您要新增其他實體類型，請輸入它，然後選擇 [新增類型]。如果您要移除其中一個已新增的實體類型，請選擇 [移除類型]，然後選擇要從清單中移除的實體類型。最多可列出 25 個圖元類型。
若要加密訓練工作，請選擇辨識器加密，然後選擇要使用與目前帳戶相關聯的 KMS 金鑰，還是使用另一個帳戶的 KMS 金鑰。
- 如果您使用與目前帳戶相關聯的金鑰，請針對 KMS 金鑰識別碼選擇金鑰識別碼。
- 如果您使用與其他帳戶相關聯的金鑰，請針對 KMS 金鑰 ARN 輸入金鑰識別碼的 ARN。
注意
如需建立和使用 KMS 金鑰及相關加密的詳細資訊，請參閱AWS Key Management Service。
在「資料規格」下，選擇訓練文件的格式：
- CSV 檔案 — 補充訓練文件的 CSV 檔案。CSV 檔案包含訓練過的模型將偵測到的自訂實體的相關資訊。所需的檔案格式取決於您是提供註釋還是實體清單。
- 增強清單 — 由 Amazon SageMaker Ground Truth 生成的標籤數據集。這個文件是 JSON 行格式。每一行都是完整的 JSON 物件，其中包含訓練文件及其標籤。每個標籤都會在訓練文件中註解一個具名實體。您最多可以提供 5 個擴增資訊清單檔案。
若要取得有關可用格式的更多資訊，以及範例，請參閱〈〉訓練自訂實體辨識器模型。
在訓練類型下，選擇要使用的訓練類型：
- 使用註釋和訓練文件
- 使用實體清單和訓練文件
如果選擇註釋，請在 Amazon S3 中輸入註釋檔案的網址。您也可以導覽至 Amazon S3 中註釋檔案所在的儲存貯體或資料夾，然後選擇瀏覽 S3。

如果選擇實體清單，請在 Amazon S3 中輸入實體清單的網址。您也可以導覽至實體清單所在的 Amazon S3 儲存貯體或資料夾，然後選擇瀏覽 S3。
輸入包含 Amazon S3 中訓練文件之輸入資料集的 URL。您也可以導覽至 Amazon S3 中訓練文件所在的儲存貯體或資料夾，然後選擇 [選取資料夾]。
在「測試資料集」下，選取您要如何評估訓練模型的效能-您可以針對註釋和實體清單訓練類型執行此操作。
- 自動拆分：自動拆分自動選擇您提供的培訓數據的 10％用作測試數據
- （可選）客戶提供：當您選擇提供的客戶時，您可以準確指定要使用的測試數據。
如果您選取客戶提供的測試資料集，請在 Amazon S3 中輸入註釋檔案的 URL。您也可以導覽至 Amazon S3 中註釋檔案所在的儲存貯體或資料夾，然後選擇「選取資料夾」。
在「選擇 IAM 角色」區段中，選取現有的 IAM 角色或建立新角色。
- 選擇現有的 IAM 角色 — 如果您已經擁有可存取輸入和輸出 Amazon S3 儲存貯體的 IAM 角色，請選取此選項。
- 建立新的 IAM 角色 — 當您想要建立具有適當許可的新 IAM 角色，讓 Amazon Comprehend 存取輸入和輸出值區時，請選取此選項。
  
  注意
  如果輸入文件已加密，則使用的 IAM 角色必須具有kms:Decrypt權限。如需詳細資訊，請參閱使用 KMS 加密所需的權限。
(選擇性) 若要從 VPC 將資源啟動至 Amazon Comprehend，請在 VPC 下輸入虛擬私人雲端識別碼，或從下拉式清單中選擇識別碼。
1. 在 [子網路] 下選擇子網路。選取第一個子網路後，您可以選擇其他子網路。
2. 在「安全性群組」下，選擇要使用的安全性群組 (如果您已指定安全性群組)。選取第一個安全性群組後，您可以選擇其他群組。
注意
當您將 VPC 與自訂實體辨識工作搭配使用時，DataAccessRole用於「建立」和「開始」作業的 VPC 必須具有存取輸入文件和輸出值區的 VPC 權限。
(選擇性) 若要將標籤新增至自訂實體辨識器，請在「標籤」下輸入鍵值配對。選擇 Add tag (新增標籤)。若要在建立辨識器之前移除此配對，請選擇 [移除標籤]。
選擇「火車」。

然後，新的辨識器會出現在清單中，並顯示其狀態。它將首先顯示為Submitted。然後，它將顯示Training正在處理訓練文檔的分類器，Trained準備使用的分類器以及In error發生錯誤的分類器。您可以按一下工作以取得有關辨識器的詳細資訊，包括任何錯誤訊息。

若要使用純文字、PDF 或 Word 文件訓練自訂實體辨識器

登入 AWS Management Console 並開啟 Amazon Comprehend 主控台。
從左側功能表中選擇 [自訂]，然後選擇 [自訂實體辨識]。
選擇火車辨識器。
給識別器一個名字。該名稱在「地區」和帳戶中必須是唯一的。
選取語言。注意：如果您正在訓練 PDF 或 Word 文件，則支援英文的語言為英文。
在 [自訂實體類型] 下，輸入您希望辨識器在資料集中尋找的自訂標籤。

實體類型必須是大寫的，如果它由一個以上的單詞組成，則用底線分隔單詞。
選擇 [新增類型]。
如果您要新增其他實體類型，請輸入它，然後選擇 [新增類型]。如果您要移除其中一個已新增的實體類型，請選擇 [移除類型]，然後選擇要從清單中移除的實體類型。最多可列出 25 個圖元類型。
若要加密訓練工作，請選擇辨識器加密，然後選擇要使用與目前帳戶相關聯的 KMS 金鑰，還是使用另一個帳戶的 KMS 金鑰。
- 如果您使用與目前帳戶相關聯的金鑰，請針對 KMS 金鑰識別碼選擇金鑰識別碼。
- 如果您使用與其他帳戶相關聯的金鑰，請針對 KMS 金鑰 ARN 輸入金鑰識別碼的 ARN。
注意
如需建立和使用 KMS 金鑰及相關加密的詳細資訊，請參閱AWS Key Management Service。
在 [訓練資料] 下，選擇 [增強資訊清單] 做為資料格式
- 增強清單-是由 Amazon SageMaker Ground Truth 生成的標籤數據集。這個文件是 JSON 行格式。檔案中的每一行都是完整的 JSON 物件，其中包含訓練文件及其標籤。每個標籤都會在訓練文件中註解一個具名實體。您最多可以提供 5 個擴增資訊清單檔案。如果您將 PDF 文件用於訓練資料，則必須選取「增強資訊清單」。您最多可以提供 5 個擴增資訊清單檔案。對於每個檔案，您最多可以命名 5 個屬性作為訓練資料。
若要取得有關可用格式的更多資訊，以及範例，請參閱〈〉訓練自訂實體辨識器模型。
選取訓練模型類型。

如果您選取了純文字文件，請在「輸入位置」下輸入 Amazon SageMakerGround 真相增強資訊清單檔案的 Amazon S3URL。您也可以導覽至 Amazon S3 中增強資訊清單所在的儲存貯體或資料夾，然後選擇 [選取資料夾]。
在「屬性名稱」下，輸入包含註釋的屬性名稱。如果檔案包含來自多個鏈結標籤工作的註釋，請為每個工作新增一個屬性。在這種情況下，每個屬性都包含來自標籤工作的一組註釋。附註：每個檔案最多可以提供 5 個屬性名稱。
選取新增。
如果您在輸入位置下選擇 PDF，Word 文檔，請輸入 Amazon SageMaker Ground Truth 增強清單文件的 Amazon S3URL。您也可以導覽至 Amazon S3 中增強資訊清單所在的儲存貯體或資料夾，然後選擇 [選取資料夾]。
輸入註釋資料檔案的 S3 前置詞。這些是您標記的 PDF 文件。
輸入來源文件的 S3 前置詞。這些是您為標籤工作提供給 Ground Truth 的原始 PDF 文檔（數據對象）。
輸入包含註釋的屬性名稱。附註：每個檔案最多可以提供 5 個屬性名稱。系統會忽略檔案中未指定的任何屬性。
在 IAM 角色區段中，選取現有的 IAM 角色或建立新角色。
- 選擇現有的 IAM 角色 — 如果您已經擁有可存取輸入和輸出 Amazon S3 儲存貯體的 IAM 角色，請選取此選項。
- 建立新的 IAM 角色 — 當您想要建立具有適當許可的新 IAM 角色，讓 Amazon Comprehend 存取輸入和輸出值區時，請選取此選項。
  
  注意
  如果輸入文件已加密，則使用的 IAM 角色必須具有kms:Decrypt權限。如需詳細資訊，請參閱使用 KMS 加密所需的權限。
(選擇性) 若要從 VPC 將資源啟動至 Amazon Comprehend，請在 VPC 下輸入虛擬私人雲端識別碼，或從下拉式清單中選擇識別碼。
1. 在 [子網路] 下選擇子網路。選取第一個子網路後，您可以選擇其他子網路。
2. 在「安全性群組」下，選擇要使用的安全性群組 (如果您已指定安全性群組)。選取第一個安全性群組後，您可以選擇其他群組。
注意
當您將 VPC 與自訂實體辨識工作搭配使用時，DataAccessRole用於「建立」和「開始」作業的 VPC 必須具有存取輸入文件和輸出值區的 VPC 權限。
(選擇性) 若要將標籤新增至自訂實體辨識器，請在「標籤」下輸入鍵值配對。選擇 Add tag (新增標籤)。若要在建立辨識器之前移除此配對，請選擇 [移除標籤]。
選擇「火車」。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

訓練辨識器模型

訓練自訂辨識器 (API)

訓練自訂辨識器 (主控台)

主題

使用 CSV 檔案訓練自訂實體辨識器

注意

注意

注意

若要使用純文字、PDF 或 Word 文件訓練自訂實體辨識器

注意

注意

注意