本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
多类模式
在多类模式下,分类为每个文档分配一个类别。各个类别是互斥的。例如,您可以将一部电影归类为喜剧或科幻小说,但不能两者兼有。
注意
Amazon Comprehend 控制台将多类模式称为单标签模式。
纯文本模型
要训练纯文本模型,您可以将带标签的训练数据作为CSV文件或来自 G SageMaker round Truth 的增强清单文件提供。
CSV文件
有关使用CSV文件训练分类器的一般信息,请参见CSV文件。
以两列CSV文件形式提供训练数据。对于每一行,第一列包含类别标签值。第二列包含该类的示例文本文档。每行必须以\n 或\r\n 字符结尾。
以下示例显示了一个CSV包含三个文档的文件。
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
以下示例显示了训练自定义分类器以检测电子邮件是否为垃圾邮件CSV的文件中的一行:
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
增强清单文件
有关使用增强清单文件训练分类器的一般信息,请参阅 增强清单文件。
对于纯文本文档,增强的清单文件的每一行都是一个完整的JSON对象,其中包含训练文档、单个类名以及来自 Ground Truth 的其他元数据。以下示例是一个增强清单文件,用于训练自定义分类器识别垃圾邮件:
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}} {"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}} {"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
以下示例显示了增强清单文件JSON中的一个对象,该对象经过格式化以提高可读性:
{ "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.", "MultiClassJob": 0, "MultiClassJob-metadata": { "confidence": 0.98, "job-name": "labeling-job/multiclassjob", "class-name": "spam", "human-annotated": "yes", "creation-date": "2020-05-21T17:36:45.814354", "type": "groundtruth/text-classification" } }
在此示例中,source
属性提供训练文档的文本,MultiClassJob
属性从分类列表中分配类的索引。该 job-name
属性是您在 Ground Truth 中为标注任务定义的名称。
在 Amazon Comprehend 中启动分类器训练任务时,需要指定相同的标注任务名称。
原生文档模型
原生文档模型是使用原生文档(例如PDFDOCX、和图像)训练的模型。您可以将训练数据作为CSV文件提供。
CSV文件
有关使用CSV文件训练分类器的一般信息,请参见CSV文件。
以三列CSV文件形式提供训练数据。对于每一行,第一列包含类别标签值。第二列包含该类示例文档的文件名。第三列包含页码。如果示例文档是图像,则页码是可选项。
以下示例显示了一个CSV引用三个输入文档的文件。
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
以下示例显示了训练自定义分类器以检测电子邮件是否为垃圾邮件CSV的文件中的一行。该PDF文件的第 2 页包含垃圾邮件示例。
SPAM,email-content-3.pdf,2