PDF 註釋文件 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

PDF 註釋文件

對於 PDF 註釋,您可以使用 SageMaker Ground Truth 在增強資訊清單檔案中建立標籤資料集。Ground Truth 是一項資料標籤服務,可協助您 (或您雇用的員工) 為機器學習模型建置訓練資料集。Amazon Comprehend 接受擴增資訊清單檔案做為自訂模型的訓練資料。當您使用 Amazon Comprehend 主控台或 API 動作建立自訂實體辨識器時,可以提供這些檔案。CreateEntityRecognizer

您可以使用 Ground Truth 內建工作類型「命名實體辨識」來建立標籤工作,讓 Worker 識別文字中的實體。若要進一步了解,請參閱 Amazon SageMaker 開發人員指南中的具名實體辨識。要了解有關 Amazon SageMaker Ground Truth 的更多信息,請參閱使用 Amazon SageMaker Ground Truth 來標記數據

注意

使用「Ground Truth」,您可以定義重疊的標籤(與多個標籤相關聯的文字)。不過,Amazon Comprehend 實體辨識不支援重疊的標籤。

增強的資訊清單檔案採用 JSON 行格式。在這些檔案中,每一行都是完整的 JSON 物件,其中包含訓練文件及其相關聯的標籤。以下示例是一個增強的清單文件,它訓練實體識別器以檢測文本中提到的個人的職業:

{"source":"Diego Ramirez is an engineer in the high tech industry.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":13,"startOffset":0,"label":"ENGINEER"}],"labels":[{"label":"ENGINEER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.92}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.175903","human-annotated":"yes"}} {"source":"J Doe is a judge on the Washington Supreme Court.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":5,"startOffset":0,"label":"JUDGE"}],"labels":[{"label":"JUDGE"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.72}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174910","human-annotated":"yes"}} {"source":"Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":38,"startOffset":26,"label":"MANAGER"}],"labels":[{"label":"MANAGER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.91}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174035","human-annotated":"yes"}}

這個 JSON 行文件中的每一行都是一個完整的 JSON 對象,其中的屬性包括文檔文本,註釋和其他元數據 Ground Truth。下列範例是增強資訊清單檔案中的單一 JSON 物件,但已格式化以提高可讀性:

{ "source": "Diego Ramirez is an engineer in the high tech industry.", "NamedEntityRecognitionDemo": { "annotations": { "entities": [ { "endOffset": 13, "startOffset": 0, "label": "ENGINEER" } ], "labels": [ { "label": "ENGINEER" } ] } }, "NamedEntityRecognitionDemo-metadata": { "entities": [ { "confidence": 0.92 } ], "job-name": "labeling-job/namedentityrecognitiondemo", "type": "groundtruth/text-span", "creation-date": "2020-05-14T21:45:27.175903", "human-annotated": "yes" } }

在此範例中,source屬性提供訓練文件的文字,而NamedEntityRecognitionDemo屬性則提供文字中實體的註釋。NamedEntityRecognitionDemo屬性的名稱是任意的,當您在 Ground Truth 中定義標籤工作時,您可以提供您選擇的名稱。

在這個範例中,NamedEntityRecognitionDemo屬性是 label 屬性名稱,這是提供「Ground Truth」Worker 指派給訓練資料之標籤的屬性。當您將訓練資料提供給 Amazon Comprehend 時,您必須指定一個或多個標籤屬性名稱。您指定的屬性名稱數量取決於您的增強資訊清單檔案是單一標籤工作的輸出還是連結標籤工作的輸出。

如果您的檔案是單一標籤工作的輸出,請指定在 Ground Truth 中建立工作時使用的單一標籤屬性名稱。

如果您的檔案是鏈結標籤工作的輸出,請為鏈結中的一或多個工作指定標籤屬性名稱。每個標籤屬性名稱均提供個別工作的註釋。您最多可以為由鏈結標籤工作產生的增強資訊清單檔案指定其中 5 個屬性。

在增強資訊清單檔案中,label 屬性名稱通常在source索引鍵之後。如果檔案是鏈結工作的輸出,則會有多個標籤屬性名稱。當您將訓練資料提供給 Amazon Comprehend 時,請僅提供那些包含與模型相關註釋的屬性。請勿指定以「-metadata」結尾的屬性。

如需有關鏈結標籤任務的詳細資訊,以及它們產生的輸出範例,請參閱 Amazon SageMaker 開發人員指南中的鏈結標籤任務