测试训练数据 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

测试训练数据

训练完模型后,Amazon Comprehend 会测试自定义分类器模型。如果您不提供测试数据集,Amazon Comprehend 会使用 90% 的训练数据来训练模型。它保留 10% 的训练数据用于测试。如果您确实提供了测试数据集,则测试数据至少包含训练数据集中每个唯一标签的一个示例。

测试模型可为您提供可用于估计模型准确性的指标。控制台在控制台中分类器详细信息页面的分类器性能部分显示指标。它们还会在DescribeDocumentClassifier操作返回的Metrics字段中返回。

在以下示例训练数据中,有五个标签:纪录片、纪录片、科幻小说、纪录片、浪漫喜剧。有三个独特的类别:纪录片、科幻小说、浪漫喜剧。

第 1 列 第 2 列
纪录片 文档文本 1
纪录片 文档文本 2
科幻小说 文档文本 3
纪录片 文档文本 4
浪漫喜剧 文档文本 5

对于自动拆分(Amazon Comprehend 保留 10% 的训练数据用于测试),如果训练数据包含特定标签的有限示例,则测试数据集可能包含该标签的零个示例。例如,如果训练数据集包含 1000 个纪录片类实例、900 个科幻小说实例和 1 个浪漫喜剧类实例,则测试数据集可能包含 100 个纪录片和 90 个科幻小说实例,但没有浪漫喜剧实例,因为只有 1 个例子可用。

完成模型训练后,训练指标会提供一些信息,您可以根据这些信息来确定模型的准确性,是否可以满足您的需求。