测试训练数据 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

测试训练数据

训练完模型后,Amazon Comprehend 会测试自定义分类器模型。如果您未提供测试数据,Amazon Comprehend 会使用 90% 的训练数据训练模型,并保留 10% 的训练数据用于测试。

测试模型可为您提供一些指标,您可以使用这些指标来确定模型的训练是否足以满足您的目的。这些指标显示在分类器性能的 部分分类器详细信息页面。它们也在Metrics返回的字段DescribeDocumentClassifieroperation.

例如,在下面的训练数据样本中,有 5 个标签,纪录片、纪录片、SCIENCE_FICTION、纪录片、ROMANTIC_COMEDY。有3 个独特的班级:纪录片、科幻小说、浪漫喜剧。

第 1 列 Column.
纪录片 文档文本 1
纪录片 文档文本 2
科幻小说 文档文本 3
纪录片 文档文本 4
浪漫喜剧 文档文本 5

例如,如果数据包含 1000 个 DOCUMENTIVER 类实例、900 个 SCIENCE_FICTION 实例和一个 ROMANTIC_COMEDY 类实例,那么测试集大约为 100 个 DOCUMENTICAL 和 90 个 SCIENCE_FICTION 实例。ROMANTIC_COMEDY 类不会包含在测试集中,因为只有一个示例可用。这是因为在这样的环境中,在预测/推理过程中,你极不可能看到归类为 ROMANTIC_COMEDY 的文档。

训练完模型后,训练指标可以为您提供信息,您可以使用这些信息来确定模型的训练是否足以满足您的需求。