创建您的数据集 - Amazon Lookout for Vision

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建您的数据集

数据集包含用于训练和测试模型的图像及分配的标签。您可以使用 Amazon Lookout for Vision 控制台或通过操作为项目创建数据集CreateDataset。必须根据要创建的模型类型(图像分类或图像分割),对数据集图像进行标注。

为数据集准备图像

您需要一组图像才能创建数据集。您的图像必须是PNG或JPEG格式化文件。关于需要的图像数量和类型,取决于您的项目具有单个数据集还是单独的训练数据集和测试数据集。

单数据集项目

要创建图像分类模型,您需要满足以下条件才能开始训练:

  • 至少有 20 张正常对象的图像。

  • 至少有 10 张异常对象的图像。

要创建图像分割模型,您需要满足以下条件才能开始训练:

  • 每种异常类型至少各 20 张图像。

  • 每张异常图像(存在异常类型的图像)必须只有一种异常类型。

  • 至少有 20 张正常对象的图像。

单独训练数据集和测试数据集项目

要创建图像分类模型,您需要满足以下条件:

  • 训练数据集中至少有 10 张正常对象的图像。

  • 测试数据集中至少有 10 张正常对象的图像。

  • 测试数据集中至少有 10 张异常对象的图像。

要创建图像分割模型,您需要满足以下条件:

  • 每个数据集中每种异常类型需要至少各有 10 张图像。

  • 每张异常图像(存在异常类型的图像)必须仅包含一种异常类型。

  • 每个数据集必须至少有 10 张正常对象的图像。

要创建更高质量的模型,请使用超过最低数量的图像。如果要创建分割模型,我们建议您包含多种异常类型的图像,但这些图像不计入 Lookout for Vision 开始训练所需的最低数量值。

您的图像中应该包含单一类型的对象。此外,还应确保一致的图像捕获条件,如摄像机定位、照明和物体姿态。

训练及测试数据集中的所有图像必须尺寸相同。随后,使用已训练的模型分析的图像必须与训练及测试数据集图像尺寸相同。有关更多信息,请参阅 检测图像中的异常

所有训练及测试图像都必须是唯一的图像,图像中最好是独特的物体。正常图像应捕获所分析对象的正常变化。异常图像应捕获异常的多样性采样。

Amazon Lookout for Vision 提供了可供您使用的示例图像。有关更多信息,请参阅 图像分类数据集

有关图像限制,请参阅 Amazon Lookout for Vision 中的配额

创建数据集

在为项目创建数据集时,您应选择项目的初始数据集配置。您还要选择供 Lookout for Vision 导入图像的位置。

为项目选择数据集配置

在项目中创建第一个数据集时,您可以选择以下一种数据集配置:

  • 单数据集:单数据集项目使用单个数据集来训练和测试您的模型。使用单个数据集可以让 Amazon Lookout for Vision 来选择训练图像和测试图像,从而简化训练工作。在训练期间,Amazon Lookout for Vision 会在内部将数据集拆分为训练数据集和测试数据集。您无权访问拆分后的数据集。对于大多数场景,我们建议使用单数据集项目。

  • 单独的训练数据集和测试数据集:如果要更好地控制训练、测试和性能调优,您可以将项目配置为采用单独的训练数据集和测试数据集。如果要控制用于测试的图像,或者您已经有想要使用的基准图像组,请使用单独的测试数据集。

您可以向现有单数据集项目中添加测试数据集。然后,单数据集将成为训练数据集。如果从具有单独训练数据集和测试数据集的项目中移除测试数据集,则项目将成为单数据集项目。有关更多信息,请参阅 删除数据集

导入图像

创建数据集时,您应选择从何处导入图像。图像可能已经进行标注,具体取决于如何导入图像。如果在创建数据集后未标注图像,请参阅 标注图像

您可以创建数据集,并通过以下方式之一导入其图像:

  • 从本地计算机导入图像。图像不会被标注。您应使用 Lookout for Vision 控制台添加标签。

  • 从 S3 桶导入图像。Amazon Lookout for Vision 可以使用文件夹名称来对图像进行分类,从而标注图像。使用 normal 来表示正常图像。使用 anomaly 来表示异常图像。您无法自动分配分割标签。

  • 导入 Amazon G SageMaker round Truth 清单文件,其中包括带标签的图片。您可以创建并导入自己的清单文件。如果你有很多图片,可以考虑使用 G SageMaker round Truth 标签服务。然后,您可以从 Amazon G SageMaker round Truth 任务中导入输出清单文件。如有必要,您可以使用 Lookout for Vision 控制台来添加或更改标签。

如果您使用的是 AWS SDK,则可以使用 Amazon G SageMaker round Truth 清单文件创建数据集。有关更多信息,请参阅 使用 Amazon G SageMaker round Truth 清单文件创建数据集

在创建数据集后,如果图像已进行标注,您便可以训练模型。如果图像未进行标注,请根据要创建的模型类型来添加标签。有关更多信息,请参阅 标注图像

您可以向现有数据集中添加更多图像。有关更多信息,请参阅 向您的数据集中添加图像