Creación de un conjunto de datos - Amazon Lookout for Vision

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de un conjunto de datos

Los conjuntos de datos contienen las imágenes y las etiquetas asignadas que se utilizan para entrenar y probar un modelo. El conjunto de datos para su proyecto se crea con la consola Amazon Lookout for Vision o con CreateDatasetla operación. Las imágenes del conjunto de datos deben etiquetarse de acuerdo con el tipo de modelo que desee crear (clasificación o segmentación de imágenes).

Preparación de imágenes para un conjunto de datos

Necesita una colección de imágenes para crear un conjunto de datos. Las imágenes deben estar en formato PNG o JPEG. La cantidad y el tipo de imágenes que necesita dependen de si su proyecto tiene un único conjunto de datos o conjuntos de datos de entrenamiento y prueba independientes.

Proyecto con un conjunto de datos individual

Para crear un modelo de clasificación de imágenes, necesita lo siguiente para empezar a entrenar:

  • Al menos 20 imágenes de objetos normales.

  • Al menos 10 imágenes de objetos anómalos.

Para crear un modelo de segmentación de imágenes, necesita lo siguiente para empezar a entrenar:

  • Al menos 20 imágenes de cada tipo de anomalía.

  • Cada imagen anómala (imagen con tipos de anomalías presentes) debe tener solo un tipo de anomalía.

  • Al menos 20 imágenes de objetos normales.

Proyecto de conjunto de datos de entrenamiento y prueba independientes

Para crear un modelo de clasificación de imágenes, necesita lo siguiente:

  • Al menos 10 imágenes de objetos normales en el conjunto de datos de entrenamiento.

  • Al menos 10 imágenes de objetos normales en el conjunto de datos de prueba.

  • Al menos 10 imágenes de objetos anómalos en el conjunto de datos de prueba.

Para crear un modelo de segmentación de imágenes, necesita lo siguiente:

  • Cada conjunto de datos necesita al menos 10 imágenes de cada tipo de anomalía.

  • Cada imagen anómala (imagen con tipos de anomalías presentes) debe tener solo un tipo de anomalía.

  • Cada conjunto de datos debe tener al menos 10 imágenes de objetos normales.

Para crear un modelo de mayor calidad, utilice más imágenes que el número mínimo. Si va a crear un modelo de segmentación, recomendamos incluir imágenes con varios tipos de anomalías, pero estas no cuentan para el mínimo que Lookout for Vision necesita para empezar a entrenar.

Las imágenes deben ser de un solo tipo de objeto. Además, debe disponer de condiciones de captura de imágenes uniformes, como la posición de la cámara, la iluminación y la postura del objeto.

Todas las imágenes de los conjuntos de datos de entrenamiento y prueba deben tener las mismas dimensiones. Más adelante, las imágenes que analice con su modelo entrenado deben tener las mismas dimensiones que las imágenes del conjunto de datos de entrenamiento y prueba. Para obtener más información, consulte Detección de anomalías en una imagen.

Todas las imágenes de entrenamiento y prueba deben ser imágenes únicas, preferiblemente de objetos únicos. Las imágenes normales deben capturar las variaciones normales del objeto que se está analizando. Las imágenes anómalas deben capturar una muestra diversa de anomalías.

Amazon Lookout for Vision proporciona imágenes de ejemplo que puede utilizar. Para obtener más información, consulte Conjunto de datos de clasificación de imágenes.

Para conocer los límites de imágenes, consulte Amazon Lookout for Vision.

Creación del conjunto de datos

Cuando cree el conjunto de datos para su proyecto, elija la configuración inicial del conjunto de datos de su proyecto. También elige desde dónde importa Lookout for Vision las imágenes.

Elegir una configuración de conjunto de datos para su proyecto

Al crear el primer conjunto de datos de su proyecto, debe elegir una de las siguientes configuraciones de conjunto de datos:

  • Conjunto de datos único: un proyecto de conjunto de datos único utiliza un único conjunto de datos para entrenar y probar el modelo. El uso de un único conjunto de datos simplifica el entrenamiento al permitir que Amazon Lookout for Vision elija las imágenes de entrenamiento y prueba. Durante el entrenamiento, Amazon Lookout for Vision divide internamente el conjunto de datos en un conjunto de datos de entrenamiento y un conjunto de datos de prueba. No tiene acceso a este conjunto de datos dividido. Recomendamos utilizar un proyecto de conjunto de datos único para la mayoría de los escenarios.

  • Separar conjuntos de datos de entrenamiento y prueba: si quiere tener un control más preciso sobre el entrenamiento, las pruebas y el ajuste del rendimiento, puede configurar su proyecto para que tenga conjuntos de datos de entrenamiento y prueba independientes. Use un conjunto de datos de prueba independiente si quiere controlar las imágenes que se utilizan para las pruebas o si ya tiene un conjunto de imágenes de referencia que desee usar.

Puede añadir un conjunto de datos de entrenamiento o un conjunto de datos de prueba a un proyecto existente. El conjunto de datos único se convierte entonces en el conjunto de datos de entrenamiento. Si elimina el conjunto de datos de prueba de un proyecto con conjuntos de datos de entrenamiento y de prueba independientes, el proyecto se convierte en un proyecto de conjunto de datos único. Para obtener más información, consulte Eliminación de un conjuntos de datos.

Importación de imágenes

Al crear un conjunto de datos, elija desde dónde importar las imágenes. Según cómo importe las imágenes, es posible que las imágenes también estén etiquetadas. Si las imágenes no se etiquetan después de crear el conjunto de datos, consulte Etiquetado de imágenes.

Puede crear un conjunto de datos e importar sus imágenes de una de las siguientes maneras:

  • Importar imágenes de un equipo local. Las imágenes no están etiquetadas. Puede añadir o etiquetar con la consola de Lookout for Vision.

  • Importar imágenes de un bucket de S3. Amazon Lookout for Vision puede clasificar las imágenes mediante los nombres de las carpetas para etiquetarlas. Use normal para imágenes normales. Se utiliza anomaly para imágenes anómalas. No puede asignar etiquetas de segmentación automáticamente.

  • Importa un archivo de manifiesto de Amazon SageMaker Ground Truth, que incluye imágenes etiquetadas. Puede crear e importar su propio archivo de manifiesto. Si tiene muchas imágenes, considere utilizar el servicio de etiquetado SageMaker Ground Truth. A continuación, importas el archivo de manifiesto de salida del trabajo de Amazon SageMaker Ground Truth. Si lo necesita, puede utilizar la consola de Lookout for Vision para añadir o cambiar etiquetas.

Si utilizas el AWS SDK, creas un conjunto de datos con un archivo de manifiesto de Amazon SageMaker Ground Truth. Para obtener más información, consulte Creación de un conjunto de datos mediante un archivo de manifiesto de Amazon SageMaker Ground Truth.

Si, después de crear el conjunto de datos, se etiquetan las imágenes, puede entrenar el modelo. Si las imágenes no están etiquetadas, añada las etiquetas según el tipo de modelo que desee crear. Para obtener más información, consulte Etiquetado de imágenes.

Puede añadir más imágenes a un conjunto de datos existente. Para obtener más información, consulte Añadir imágenes a su conjunto de datos..