Encadenar trabajos de etiquetado - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Encadenar trabajos de etiquetado

Amazon SageMaker Ground Truth puede reutilizar conjuntos de trabajos anteriores de dos formas diferentes: clonándolos o encadenándolos.

La clonación copia la configuración de un trabajo de etiquetado anterior y permite realizar cambios adicionales antes de ponerla en funcionamiento.

El encadenamiento no solo utiliza la configuración de un trabajo anterior, sino también sus resultados. Esto permite continuar un trabajo incompleto y añadir etiquetas u objetos de datos a un trabajo completado. La operación de encadenamiento es más compleja.

Para el procesamiento de datos:

  • La clonación utiliza el manifiesto de entrada del trabajo anterior (con modificaciones opcionales) como manifiesto de entrada del trabajo.

  • El encadenamiento utiliza el manifiesto de salida del trabajo anterior como manifiesto de entrada del nuevo trabajo.

El encadenamiento resulta útil cuando necesita:

  • Continuar un trabajo de etiquetado que se ha detenido manualmente.

  • Continuar un trabajo de etiquetado que registró errores en mitad del trabajo, después de solucionar los problemas.

  • Cambiar a un etiquetado de datos automatizado después de etiquetar manualmente parte de un trabajo (o a la inversa).

  • Añadir más objetos de datos a un trabajo completado y comenzar el trabajo desde ahí.

  • Añadir otra anotación a un trabajo completado. Por ejemplo, este es el caso si tiene una colección de frases etiquetadas por tema y luego quiere volver a ejecutar el conjunto, clasificando las frases por audiencia implícita del tema.

En Amazon SageMaker Ground Truth puede configurar un trabajo de etiquetado encadenado a través de la consola o de la API.

Términos clave: nombre de atributo de etiqueta

El nombre de atributo de etiqueta (LabelAttributeName en la API) es una cadena que se utiliza como clave del par clave-valor formado con la etiqueta que un trabajador asigna al objeto de datos.

El nombre del atributo de etiqueta debe ajustarse a las siguientes reglas:

  • No puede terminar en -metadata.

  • Los nombres source y source-ref están reservados y no se pueden usar.

  • Los trabajos de etiquetado de segmentación semántica deben terminar por -ref. Los demás trabajos de etiquetado no pueden terminar por -ref. Si utiliza la consola para crear el trabajo, Amazon SageMaker Ground Truth anexa -ref automáticamente a todos los nombres de atributos de etiqueta, excepto a los trabajos de segmentación semántica.

  • En los trabajos de etiquetado encadenados, cuando utilice el mismo nombre de atributo de etiqueta del trabajo de origen y configure el trabajo encadenado para que use el etiquetado automático, si en algún momento ha estado en modo de etiquetado automático, Ground Truth utilizará el modelo del trabajo de origen.

En un manifiesto de salida, el nombre del atributo de etiqueta es similar al siguiente.

"source-ref": "<S3 URI>", "<label attribute name>": { "annotations": [{ "class_id": 0, "width": 99, "top": 87, "height": 62, "left": 175 }], "image_size": [{ "width": 344, "depth": 3, "height": 234 }] }, "<label attribute name>-metadata": { "job-name": "<job name>", "class-map": { "0": "<label attribute name>" }, "human-annotated": "yes", "objects": [{ "confidence": 0.09 }], "creation-date": "<timestamp>", "type": "groundtruth/object-detection" }

Si está creando un trabajo en la consola y no establece explícitamente el valor del nombre del atributo de etiqueta, Ground Truth utilizará el nombre del trabajo como atributo del nombre de etiqueta de ese trabajo.

Iniciar un trabajo encadenado (consola)

Elija un trabajo de etiquetado que se haya detenido, tenga un error o esté completado en la lista de trabajos existentes. Esto habilita el menú Acciones.

En el menú Acciones, seleccione Encadenar.

Panel de información general de trabajos

En el panel Información general del trabajo se configura un nuevo Nombre del trabajo en función del título del trabajo desde el que encadena este trabajo. Puede cambiarlo.

También puede especificar un nombre de atributo de etiqueta diferente del nombre del trabajo de etiquetado.

Si encadena a partir de un trabajo completado, el nombre de atributo de etiqueta utiliza el nombre del nuevo trabajo que está configurando. Para cambiar el nombre, seleccione la casilla de verificación.

Si encadena a partir de un trabajo que se ha detenido o con errores, el nombre de atributo de etiqueta utiliza el nombre del trabajo desde el que está encadenando. Resulta fácil ver y editar el valor porque la casilla de verificación del nombre está seleccionada.

Consideraciones sobre los nombres de etiquetas de atributos
  • El valor predeterminado utiliza el nombre de atributo de etiqueta que Ground Truth ha seleccionado. Se etiquetan todos los objetos de datos sin datos conectados a dicho nombre de atributo de etiqueta.

  • El uso de un nombre de atributo de etiqueta que no está en el manifiesto hará que el trabajo procese todos los objetos del conjunto de datos.

En este caso, la ubicación del conjunto de datos de entrada se selecciona automáticamente como manifiesto de salida del trabajo encadenado. El campo de entrada no está disponible, por lo que no puede cambiarlo.

Añadir objetos de datos a un trabajo de etiquetado

No puede especificar un archivo de manifiesto alternativo. Edite manualmente el manifiesto de salida del trabajo anterior para añadir nuevos elementos antes de comenzar un trabajo encadenado. El URI de Amazon S3 le ayuda a ubicar dónde almacena el manifiesto en su bucket de Amazon S3. Descargue el archivo de manifiesto desde allí, edítelo localmente en su equipo y, a continuación, cargue la nueva versión para sustituirlo. Asegúrese de no introducir los errores durante la edición. Le recomendamos que utilice JSON linter para comprobar el JSON. Muchos editores de texto populares e IDE tienen complementos linter disponibles.

Iniciar un trabajo encadenado (API)

El procedimiento es prácticamente igual a configurar un nuevo trabajo con CreateLabelingJob, excepto por dos diferencias clave:

  • Ubicación del manifiesto: en lugar de utilizar el manifiesto original del trabajo anterior, el valor de ManifestS3Uri en DataSource debe apuntar al URI de Amazon S3 del manifiesto de salida del trabajo de etiquetado anterior.

  • Nombre de atributo de etiqueta: aquí es importante configurar el valor de LabelAttributeName correcto. Esta es la parte clave de un par clave-valor donde los datos de etiquetado son el valor. Casos de uso de ejemplo:

    • Añadir etiquetas nuevas o más específicas a un trabajo finalizado: defina un nuevo nombre de atributo de etiqueta.

    • Etiquetar los elementos no etiquetados de un trabajo anterior: utilice el nombre del atributo de etiqueta del trabajo anterior.

Utilizar un conjunto de datos parcialmente etiquetado

Puede obtener algunos beneficios de encadenado si utiliza un manifiesto aumentado que ya se haya etiquetado parcialmente. Marque la casilla de verificación Nombre de atributo de la etiqueta y defina el nombre para que coincida con el nombre del manifiesto.

Si utiliza la API, las instrucciones son las mismas que para iniciar un trabajo encadenado. Sin embargo, asegúrese de cargar el manifiesto en un bucket de Amazon S3 y de usarlo en lugar de del manifiesto de salida de un trabajo anterior.

El valor Nombre de atributo de la etiqueta del manifiesto tiene que cumplir las consideraciones de nomenclatura indicadas anteriormente.