Use un archivo de manifiesto de entrada - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Use un archivo de manifiesto de entrada

Cada línea de un archivo de manifiesto de entrada es una entrada que contiene un objeto, o una referencia a un objeto, que hay que etiquetar. Una entrada también puede contener etiquetas de trabajos anteriores y, para algunos tipos de tareas, información adicional.

Los datos de entrada y el archivo de manifiesto deben almacenarse en Amazon Simple Storage Service (Amazon S3). Cada uno tiene unos requisitos específicos de almacenamiento y acceso, como se indica a continuación:

  • El bucket de Amazon S3 que contiene los datos de entrada debe estar en la misma AWS región en la que se ejecuta Amazon SageMaker Ground Truth. Debes dar SageMaker acceso a Amazon a los datos almacenados en el bucket de Amazon S3 para que pueda leerlos. Para obtener más información acerca de los buckets de S3, consulte Trabajo con buckets de S3.

  • El archivo de manifiesto debe estar en la misma AWS región que los archivos de datos, pero no es necesario que esté en la misma ubicación que los archivos de datos. Se puede almacenar en cualquier bucket de Amazon S3 al que pueda acceder el rol AWS Identity and Access Management (IAM) que asignó a Ground Truth cuando creó el trabajo de etiquetado.

nota

Los tipos de tareas de nube de puntos 3D y fotogramas de vídeo tienen diferentes requisitos y atributos de manifiestos de entrada.

Para conocer los tipos de tareas de nube de puntos 3D, consulte Crear un archivo de manifiesto de entrada para un trabajo de etiquetado en nubes de puntos 3D.

Para obtener información sobre los tipos de tareas de fotogramas de vídeo, consulte Cree un archivo de manifiesto de entrada de fotograma de vídeo.

El manifiesto es un archivo con codificación UTF-8 donde cada línea es un objeto JSON completo y válido. Cada línea se delimita con un salto de línea estándar, \n o \r\n. Dado que cada línea tiene que ser un objeto JSON válido, no puede tener caracteres de salto de línea sin escape. Para obtener más información sobre el formato de datos, consulte JSON Lines.

Cada objeto JSON del archivo de manifiesto no puede tener más de 100 000 caracteres. Ningún atributo único dentro de un objeto puede tener más de 20 000 caracteres. Los nombres de atributo no pueden empezar por $ (signo de dólar).

Cada objeto JSON en el archivo de manifiesto debe contener una de las siguientes claves: source-ref o source. El valor de las claves se interpreta como se indica a continuación:

  • source-ref: el origen del objeto es el objeto de Amazon S3 especificado en el valor. Utilice este valor cuando el objeto sea un objeto binario, como una imagen.

  • source: el origen del objeto es el valor. Utilice este valor cuando el objeto sea un valor de texto.

A continuación se incluye un ejemplo de un archivo de manifiesto para archivos almacenados en un bucket de Amazon S3:

{"source-ref": "S3 bucket location 1"} {"source-ref": "S3 bucket location 2"} ... {"source-ref": "S3 bucket location n"}

Utilice la clave source-ref para los archivos de imagen para los trabajos de etiquetado de segmentación semántica, de clasificación de imágenes (etiqueta única y etiquetas múltiples) y de cuadro delimitador, y clips de vídeo para trabajos de etiquetado de clasificación de vídeo. Los trabajos de etiquetado de fotogramas de vídeo y nubes de puntos 3D también utilizan la clave source-ref, pero estos trabajos de etiquetado requieren información adicional en el archivo de manifiesto de entrada. Para obtener más información, consulte Datos de entrada de nube de puntos 3D y Datos de entrada de fotogramas de vídeo.

A continuación se muestra un ejemplo de un archivo de manifiesto con los datos de entrada almacenados en el manifiesto:

{"source": "Lorem ipsum dolor sit amet"} {"source": "consectetur adipiscing elit"} ... {"source": "mollit anim id est laborum"}

Utilice la clave source para los trabajos de clasificación de texto de etiqueta única y etiquetas múltiples y para los trabajos de etiquetado de reconocimiento de entidades con nombre.

Puede incluir otros pares de clave-valor en el archivo de manifiesto. Estos pares se transfieren al archivo de salida sin cambios. Esto es útil si desea transferir información entre sus aplicaciones. Para obtener más información, consulte Datos de salida.