純文字註解檔 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

純文字註解檔

對於純文字註釋,您可以建立包含註釋清單的逗號分隔值 (CSV) 檔案。如果您的訓練檔案輸入格式是每行一個文件,則 CSV 檔案必須包含下列欄。

檔案 折線圖 開始偏移 終點偏移 Type

包含文件的檔案名稱。例如,如果其中一個文件檔案位於s3://my-S3-bucket/test-files/documents.txt,則File欄中的值將為documents.txt。您必須包含檔案副檔名 (在本例中為 '.txt') 做為檔案名稱的一部分。

包含圖元的行號。如果您的輸入格式是每個檔案一個文件,請省略此欄。

顯示實體開始位置的輸入文字中的字元偏移量 (相對於行的開頭)。第一個字元位於 0 的位置。

顯示實體結束位置的輸入文字中的字元偏移量。

客戶定義的實體類型。實體類型必須是大寫、下劃線分隔的字串。我們建議使用描述性實體類型MANAGER,例如SENIOR_MANAGER、或PRODUCT_CODE。每個模型最多可訓練 25 個實體類型。

如果訓練檔案輸入格式是每個檔案一個文件,則省略行號欄,而「開始位移」(Begin Offset) 和「結束」(End) 位移值是實體從文件開頭算起的偏移量。

下列範例適用於每行一個文件。檔案documents.txt包含四行 (列 0、1、2 和 3):

Diego Ramirez is an engineer in the high tech industry. Emilio Johnson has been an engineer for 14 years. J Doe is a judge on the Washington Supreme Court. Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.

包含註釋清單的 CSV 檔案如下所示:

File, Line, Begin Offset, End Offset, Type documents.txt, 0, 0, 13, ENGINEER documents.txt, 1, 0, 14, ENGINEER documents.txt, 3, 25, 38, MANAGER
注意

在註釋檔案中,包含圖元的行號以 0 行開始。在此範例中,CSV 檔案不包含第 2 行的項目,因為第 2 行中沒有實體documents.txt

建立您的資料檔案

請務必將註解放在正確設定的 CSV 檔案中,以降低發生錯誤的風險。若要手動設定 CSV 檔案,必須符合下列條件:

  • UTF-8 編碼必須明確指定,即使在大多數情況下將其用作默認編碼也是如此。

  • 第一行包含欄標題:File, Line (選擇性)、Begin OffsetEnd OffsetType

我們強烈建議您以程式設計方式產生 CSV 輸入檔案,以避免潛在的問題。

下列範例會使用 Python 為先前顯示的註解產生 CSV:

import csv with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"]) csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"]) csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"]) csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])