Filtrar y seleccionar datos para etiquetado - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Filtrar y seleccionar datos para etiquetado

Puedes usar la SageMaker consola de Amazon para seleccionar una parte de tu conjunto de datos para etiquetarla. Los datos tienen que estar almacenados en un bucket de Amazon S3. Tiene tres opciones:

  • Utilizar el conjunto de datos completo.

  • Elegir una muestra seleccionada al azar del conjunto de datos.

  • Especificar un subconjunto del conjunto de datos mediante una consulta.

Las siguientes opciones están disponibles en la sección Trabajos de etiquetado de la SageMakerconsola después de seleccionar Crear trabajo de etiquetado. Para obtener información sobre cómo crear un trabajo de etiquetado en la consola, consulte Introducción. Para configurar el conjunto de datos que utiliza para el etiquetado, en la sección Job overview (Descripción general del trabajo), elija Additional configuration (Configuración adicional).

Usar el conjunto de datos completo

Si elige Conjunto de datos completo, debe proporcionar un archivo de manifiesto para los objetos de datos. Puede proporcionar la ruta del bucket de Amazon S3 que contiene el archivo de manifiesto o usar la SageMaker consola para crear el archivo. Para obtener información sobre cómo crear un archivo de manifiesto mediante la consola, consulte Configuración de datos automatizada.

Elegir una muestra aleatoria

Cuando desee etiquetar un subconjunto aleatorio de sus datos, seleccione Random sample (Muestra aleatoria). El conjunto de datos se almacena en el bucket de Amazon S3 especificado en el campo Ubicación del conjunto de datos de entrada.

Una vez que haya especificado el porcentaje de objetos de datos que desea incluir en la muestra, elija Crear subconjunto. SageMaker selecciona aleatoriamente los objetos de datos para su trabajo de etiquetado. Una vez que haya seleccionado los objetos, elija Use this subset (Usar este subconjunto).

SageMaker crea un archivo de manifiesto para los objetos de datos seleccionados. También modifica el valor en el campo Input dataset location (Ubicación del conjunto de datos de entrada) para apuntar al nuevo archivo de manifiesto.

Especificar un subconjunto

Puede especificar un subconjunto de objetos de datos mediante una consulta SELECT de Amazon S3 en los nombres de archivos de objeto.

El SELECT enunciado de la SQL consulta está definido para usted. Tiene que proporcionar la cláusula WHERE para especificar qué objetos de datos se deben devolver.

Para obtener más información acerca de la instrucción SELECT de Amazon S3, consulte Selección de contenido de los objetos.

Seleccione Create subset (Crear subconjunto) para iniciar la selección y, a continuación, elija Use this subset (Utilizar este subconjunto) para utilizar los datos seleccionados.

SageMaker crea un archivo de manifiesto para los objetos de datos seleccionados. También actualiza el valor en el campo Input dataset location (Ubicación del conjunto de datos de entrada) para que apunte al nuevo archivo de manifiesto.