准备数据集 - Amazon Rekognition

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

准备数据集

创建适配器需要您为 Rekognition 提供两个数据集,即训练数据集和测试数据集。每个数据集都包含两个元素:图像和注释/标签。以下各节说明了标签和图像的用途,以及如何将它们组合在一起创建数据集。

映像

您需要在有代表性的图像样本上训练适配器。在选择用于训练的图像时,请尽量包含至少几张图像,以演示适配器所针对的每个标签的预期响应。

要创建训练数据集,您需要提供以下两种图像类型之一:

  • 预测为假阳性的图像。例如,当基本模型预测图像中有酒精,但实际却没有。

  • 预测为假阴性的图像。例如,当基本模型预测图像中没有酒精,但实际却有。

要创建平衡的数据集,建议您提供以下两种图像类型之一:

  • 预测为真阳性的图像。例如,当基本模型正确预测图像中含有酒精时。如果您提供假阳性图像,建议您提供这些图像。

  • 预测为真阴性的图像。例如,当基本模型正确预测图像中不含酒精时。如果您提供假阴性图像,建议您提供这些图像。

标签

标签是指以下任何内容:对象、事件、概念或活动。对于内容审核,标签是指不当、不必要或冒犯性内容的实例。

在通过训练 Rekognition 的基础模型来创建适配器的过程中,为图像分配一个标签就叫做注释。使用 Rekognition 控制台训练适配器时,您将使用该控制台通过选择标签然后标记与标签对应的图像来为图像添加注释。通过此过程,模型学会根据指定的标签识别图像中的元素。这种链接过程可以让模型在创建适配器时将重点放在最相关的内容上,从而提高图像分析的准确性。

或者,您可以提供清单文件,其中包含有关图像以及与之相关的注释的信息。

训练和测试数据集

训练数据集是微调模型和创建自定义适配器的基础。您必须提供带注释的训练数据集供模型学习。模型会从该数据集中学习,以提高其在处理您提供的图像类型时的性能。

为了提高准确性,您必须通过 annotation/labeling 图像创建训练数据集。您可以通过两种方式实现这一点:

  • 手动分配标签 – 您可以使用 Rekognition 控制台创建训练数据集,方法是上传您希望数据集包含的图像,然后手动为这些图像分配标签。

  • 清单文件 – 您可以使用清单文件来训练适配器。清单文件包含有关训练和测试图像的真实情况注释以及训练图像的位置信息。在使用 APIs Rekognition 训练适配器或使用控制台时,您可以提供清单文件。 AWS

测试数据集用于在训练后评估适配器的性能。为确保评估的可靠性,测试数据集是通过使用模型以前从未见过的原始训练数据集片段来创建的。此过程可确保使用新数据评测适配器的性能,从而建立准确的衡量标准和衡量尺度。要获得最佳精度改进,请参阅训练适配器的最佳实践