CSV 文件(仅限纯文本) - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

CSV 文件(仅限纯文本)

使用逗号分隔值 (CSV) 文件作为注释时,CSV 文件必须包含以下cofset:

文件 折线图 开始偏移量 末端偏移量 类型

包含文档的文件的名称。例如,如果其中一个文档文件位于s3://my-S3-bucket/test-files/documents.txt,中的值Filecolumn 将是documents.txt. 您必须包含文件扩展名(在本例中设置值 '.txt') 作为文件名的一部分。

包含实体的行号,从第 0 行开始。

显示实体起始位置的输入文本中的字符偏移(相对于行首)。第一个字符位于位置 0。

显示实体结束位置的输入文本中的字符偏移。

客户定义的实体类型。实体类型必须是用下划线分隔的大写字符串。我们建议使用描述性实体类型,例如MANAGERSENIOR_MANAGER,或者PRODUCT_CODE. 每个模型最多可训练 25 种实体类型。

示例如下:

这个文件documents.txt包含四行(0、1、2 和 3):

Diego Ramirez is an engineer in the high tech industry. Emilio Johnson has been an engineer for 14 years. J Doe is a judge on the Washington Supreme Court. Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.

包含注释列表的 CSV 文件如下所示:

File, Line, Begin Offset, End Offset, Type documents.txt, 0, 0, 13, ENGINEER documents.txt, 1, 0, 15, ENGINEER documents.txt, 3, 25, 38, MANAGER
注意

在注释文件中,包含实体的行号以第 0 行开头。在此示例中,CSV 文件中不存在第 2 行,因为第 2 行中没有实体documents.txt.

创建数据文件

请务必将注释放在正确配置的 CSV 文件中,以降低出错风险。要手动配置 CSV 文件,必须满足以下条件:

  • 必须显式指定 UTF-8 编码,即使在大多数情况下将其用作默认编码也是如此。

  • 第一行必须包含列标题:FileLineBegin OffsetEnd OffsetType.

我们强烈建议以编程方式生成 CSV 输入文件,以避免潜在问题。

以下示例使用 Python 为上面显示的注解生成 CSV:

import csv with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"]) csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"]) csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"]) csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])