准备训练数据 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

准备训练数据

您可以使用两种模式对文档进行分类:多类别或多标签。某些输入文件格式因每种模式而异,因此在创建用于训练模型的数据时,您可以选择使用哪种模式。

的概念班级用于两种模式。这是一个自定义类别,适用于正在分析的文档。但是,每种模式使用 class 的方式不同。多类模式仅将单个类与每个文档相关联。多标签模式将多个类与一个文档相关联。每种模式的训练数据格式也不同。

您可以使用可与 Amazon Comprehend 配合使用的以下任何一种语言来训练自定义分类器:英语、西班牙语、德语、意大利语、法语或葡萄牙语。但是,您只能使用一种语言训练分类器。分类器不支持多种语言。

要训练自定义分类器(自定义模型),请确定要用于分类的类。例如,pricingdefectprofanity。接下来,确定每个类的文档示例。对于每堂课,至少提供 10 份培训文档。例如,如果您有 10 个可能的类,则总共需要至少 100 个分类文档来训练模型。为了获得更准确的培训,我们建议每堂课至少有 50 份或更多文档。

注意

尽管您可以在分类器中使用多个类,但是在文档上使用分类器时,它们不会确定层次结构。

我们建议您为每个班级使用 50 个或更多训练文档来训练模型。虽然每堂课至少需要 10 份培训文档,但文档越多,您就能获得更高的准确性。培训文档的总大小必须小于 5GB。