Consolidar anotaciones - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Consolidar anotaciones

Una anotación es el resultado de la tarea de etiquetado de un trabajador. La consolidación de anotaciones combina las anotaciones de dos o varios trabajadores en una sola etiqueta de los objetos de datos. Las etiquetas, que se asignan a cada objeto del conjunto de datos, son una estimación probabilística de cuál debe ser la verdadera etiqueta. Cada objeto del conjunto de datos normalmente tiene varias anotaciones, pero solo tiene una etiqueta o un conjunto de etiquetas.

Usted decide cuántos trabajadores anotan cada uno de los objetos del conjunto de datos. El uso de más trabajadores puede aumentar la precisión de las etiquetas, pero también el costo del etiquetado. Para obtener más información sobre precios de Ground Truth, consulte Precios de Amazon SageMaker Ground Truth.

Si utiliza la consola de Amazon SageMaker para crear un trabajo de etiquetado, a continuación se muestran los valores predeterminados para el número de trabajadores que pueden anotar objetos:

  • Clasificación de texto: 3 trabajadores

  • Clasificación de imágenes: 3 trabajadores

  • Cuadros delimitadores: 5 trabajadores

  • Segmentación semántica: 3 trabajadores

  • Reconocimiento de entidades con nombre: 3 trabajadores

Cuando se utiliza la operación CreateLabelingJob, el número de trabajadores que van a comentar cada objeto de datos se establece con el parámetro NumberOfHumanWorkersPerDataObject. Si desea anular el número predeterminado de trabajadores que van a comentar un objeto de datos, utilice la consola o la operación CreateLabelingJob.

Ground Truth proporciona una función de consolidación de anotaciones para cada una de sus tareas de etiquetado predefinidas: cuadro delimitador, clasificación de imágenes, reconocimiento de entidades de nombres, segmentación semántica y clasificación de texto. Estas son las funciones:

  • La consolidación de anotaciones de varias clases para la clasificación de textos e imágenes aplica una variante del enfoque de maximización de expectativas a las anotaciones. Estima parámetros para cada trabajador y utiliza la inferencia bayesiana para calcular la verdadera clase en función de los anotaciones de clase de trabajadores individuales.

  • La anotación de cuadros delimitadores consolida los cuadros delimitadores de varios trabajadores. Esta función busca los cuadros más parecidos de diferentes trabajadores en función del índice Jaccard (o la intersección sobre la unión) de los cuadros y calcula su promedio.

  • La consolidación de anotaciones de segmentación semántica trata cada píxel en una sola imagen como una clasificación de varias clases. Esta función trata las anotaciones de píxeles de trabajadores como "votos", con más información de los píxeles circundantes incorporada mediante la aplicación de una función de suavizado a la imagen.

  • El reconocimiento de la entidad denominada agrupa las selecciones de texto por similitud de Jaccard y calcula los límites de selección en función del modo, o de la media si este no está claro. La etiqueta se resuelve como la etiqueta de entidad más asignada en el clúster, rompiendo los vínculos mediante una selección aleatoria.

Puede utilizar otros algoritmos para consolidar anotaciones. Para obtener información, consulte Crear una función de consolidación de anotaciones propia.

Crear una función de consolidación de anotaciones propia

Si lo desea, puede utilizar su propia función de consolidación de anotaciones para determinar las etiquetas finales de los objetos etiquetados. Hay muchos enfoques posibles para escribir una función, y el enfoque que elija dependerá de la naturaleza de las anotaciones que se van a consolidar. En general, las funciones de consolidación tienen en cuenta las anotaciones de los trabajadores, miden la similitud entre ellas y luego utilizan alguna forma de evaluación probabilística para determinar cuál debe ser la etiqueta más probable.

Si desea utilizar otros algoritmos para crear funciones de consolidación de anotaciones, puede buscar las respuestas de los trabajadores en la carpeta de [project-name]/annotations/worker-response del bucket de Amazon S3 donde se envía la salida del trabajo.

Evaluar la similitud

Para evaluar la similitud entre etiquetas, puede seguir una de las siguientes estrategias o puede utilizar otra que se adapte a sus necesidades de etiquetado de datos:

  • Para espacios de etiquetas que se componen de categorías discretas que se excluyen mutuamente, como, por ejemplo, la clasificación de varias clases, la evaluación de la similitud puede ser sencilla. Las etiquetas discretas coinciden o no coinciden.

  • Para los espacios de etiquetas que no tienen valores discretos, como, por ejemplo, las anotaciones de cuadros delimitadores, busque una amplia medida de similitud. En el caso de los cuadros delimitadores, una de dichas medidas es el índice Jaccard. Este índice mide la proporción de la intersección de dos cuadros con la unión de los cuadros para evaluar su grado de similitud. Por ejemplo, si hay tres anotaciones, puede haber una función que determine qué anotaciones representan el mismo objeto y deben consolidarse.

Evaluar la etiqueta más probable

Teniendo en cuenta una de las estrategias detalladas en las secciones anteriores, realice algún tipo de juicio probabilístico sobre cuál debería ser la etiqueta consolidada. En el caso de las categorías discretas mutuamente excluyentes, esto puede resultar sencillo. Una de las formas más frecuentes de hacerlo consiste en tomar los resultados de una votación mayoritaria entre las anotaciones. De esta forma se sopesan las anotaciones por igual.

Algunos enfoques intentan calcular la precisión de diferentes anotadores y sopesar sus anotaciones en proporción con la probabilidad de exactitud. Un ejemplo sería el método de maximización de expectativas, que se utiliza en la función de consolidación de Ground Truth predeterminada para anotaciones de varias clases.

Para obtener más información acerca de cómo crear una función de consolidación de anotaciones, consulte Paso 3: Procesamiento con AWS Lambda.