AugmentedManifestsListItem - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AugmentedManifestsListItem

一个增强的清单文件,提供自定义模型的训练数据。增强的清单文件是由 Amazon 生成的带标签的数据集 SageMaker GGround Truth。

目录

AnnotationDataS3Uri

扩充清单文件中引用的注释文件的 S3 前缀。

类型: 字符串

长度约束:长度上限为 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必需: 否

AttributeNames

包含训练文档注释的 JSON 属性。您指定的属性名称数量取决于您的增强清单文件是单个标注作业还是链式标注作业的输出。

如果您的文件是单个标记作业的输出,请指定 LabelAttributeName 在 Ground Truth 中创建作业时使用的密钥。

如果您的文件是链接标记作业的输出,请指定 LabelAttributeName 对于链中一个或多个任务的关键。EACH LabelAttributeName key 提供来自单个作业的注释。

类型: 字符串数组

长度约束:最小长度为 1。长度上限为 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*

必需: 是

DocumentType

增强清单的类型。 PlainTextDocument 要么 SemiStructuredDocument. 如果不指定,则默认值为 PlainTextDocument.

  • PLAIN_TEXT_DOCUMENT一种文档类型,它表示以 UTF-8 编码的任何 unicode 文本。

  • SEMI_STRUCTURED_DOCUMENT具有位置和结构上下文的文档类型,如 PDF。对于使用亚马逊 Comprehend 进行培训,仅支持 PDF。为了进行推断,亚马逊理解(Amazon Comprehend)支持PDF、DOCX和TXT。

类型: 字符串

有效值: PLAIN_TEXT_DOCUMENT | SEMI_STRUCTURED_DOCUMENT

必需: 否

S3Uri

已增强的清单文件的 Simple Storage Service(A

类型: 字符串

长度约束:长度上限为 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必需: 是

SourceDocumentsS3Uri

增强清单文件中引用的源文件 (PDF) 的 S3 前缀。

类型: 字符串

长度约束:长度上限为 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必需: 否

Split

您在增强清单中提供的数据的用途。您可以训练或测试这些数据。如果不指定,则默认值为 trainvice。

TRAIN-清单中的所有文档都将用于培训。如果未提供测试文档,Amazon Comprehend 将自动保留一部分培训文档用于测试。

TEST-清单中的所有文档都将用于测试。

类型: 字符串

有效值: TRAIN | TEST

必需: 否

另请参阅

有关在特定语言的 AWS 软件开发工具包中使用此 API 的更多信息,请参阅以下内容: