Controlar el flujo de objetos de datos enviados a los trabajadores - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Controlar el flujo de objetos de datos enviados a los trabajadores

Según el tipo de trabajo de etiquetado que cree, Amazon SageMaker Ground Truth envía los objetos de datos a los trabajadores por lotes o en streaming. Puede controlar el flujo de objetos de datos a los trabajadores de la siguiente forma:

  • Para ambos tipos de trabajos de etiquetado, puede utilizar MaxConcurrentTaskCount para controlar el número total de objetos de datos disponibles para todos los trabajadores en un momento dado en el que se esté ejecutando el trabajo de etiquetado.

  • Para transmitir en streaming los trabajos de etiquetado, puede controlar el flujo de objetos de datos a los trabajadores supervisando y controlando el número de objetos de datos enviados al Amazon SQS asociado a su trabajo de etiquetado.

Utilice las siguientes secciones para obtener más información sobre estas opciones. Para obtener más información sobre la transmisión en streaming de trabajos de etiquetado, consulte Trabajos de etiquetado en streaming de Ground Truth.

Úselo MaxConcurrentTaskCount para controlar el flujo de objetos de datos

MaxConcurrentTaskCount define el número máximo de objetos de datos que los trabajadores humanos pueden etiquetar al mismo tiempo. Si utiliza la consola, este parámetro se establece en 1000. Si lo utiliza CreateLabelingJob, puede establecer este parámetro en cualquier número entero entre 1 y 1000, ambos inclusive.

Al iniciar un trabajo de etiquetado con un archivo de manifiesto de entrada, Ground Truth hace lo siguiente:

  1. Para cada objeto de datos que aparece en el archivo de manifiesto de entrada se crean una o más tareas, según el valor que especifique para NumberOfHumanWorkersPerDataObject. Por ejemplo, si establece el número de trabajadores por objeto de datos en 3, se crearán 3 tareas para cada objeto del conjunto de datos. Para marcar el objeto como correctamente etiquetado, al menos un trabajador debe etiquetarlo. Como alternativa, las tareas pueden caducar o rechazarse.

  2. Si utiliza el personal de Mechanical Turk, Ground Truth envía primero un lote de 10 objetos de conjunto de datos a sus trabajadores. Utiliza este pequeño lote para configurar el trabajo de etiquetado y para asegurarse de que el trabajo esté configurado correctamente.

  3. A continuación, Ground Truth envía el número MaxConcurrentTaskCount de objetos del conjunto de datos a los trabajadores. Por ejemplo, si tiene 2000 objetos de datos de entrada en el archivo de manifiesto de entrada y ha establecido el número de trabajadores por objeto de datos en 3 y establecido MaxConcurrentTaskCount en 900, los primeros 900 objetos de datos de su manifiesto de entrada se envían a los trabajadores, lo que corresponde a 2700 tareas (900 x 3). Este es el primer conjunto de objetos de tamaño completo que se envía a los trabajadores.

  4. Lo que ocurre a continuación depende del tipo de trabajo de etiquetado que cree. En este paso, se supone que uno o más objetos del conjunto de datos del archivo de manifiesto de entrada o enviados mediante un origen de datos de entrada de Amazon SNS (en un trabajo de etiquetado en streaming) no se han incluido en el conjunto enviado a los trabajadores en el paso 3.

    • Trabajo de etiquetado en streaming: siempre que el número total de objetos disponibles para los trabajadores sea igual a MaxConcurrentTaskCount, todos los objetos del conjunto de datos restantes en el archivo de manifiesto de entrada y que envía en tiempo real mediante Amazon SNS se colocarán en una cola de Amazon SQS. Cuando el número total de objetos disponibles para los trabajadores sea inferior a MaxConcurrentTaskCount menos NumberOfHumanWorkersPerDataObject, se utilizará un nuevo objeto de datos de la cola para crear NumberOfHumanWorkersPerDataObject tareas, que se envían a los trabajadores en tiempo real.

    • Trabajo de etiquetado sin streaming: a medida que los trabajadores terminen de etiquetar un conjunto de objetos, se enviarán NumberOfHumanWorkersPerDataObject veces el número MaxConcurrentTaskCount de tareas nuevas a los trabajadores. Este proceso se repite hasta que se etiqueten todos los objetos de datos del archivo de manifiesto de entrada.

Utilice Amazon SQS para controlar el flujo de objetos de datos para la transmisión en streaming de trabajos de etiquetado

Cuando crea un trabajo de etiquetado en streaming, se crea automáticamente una cola de Amazon SQS en su cuenta. Los objetos de datos solo se añaden a la cola de Amazon SQS cuando el número total de objetos enviados a los trabajadores es superior a MaxConcurrentTaskCount. De lo contrario, los objetos se envían directamente a los trabajadores.

Puede utilizar esta cola para gestionar el flujo de objetos de datos al trabajo de etiquetado. Para obtener más información, consulte Administre las solicitudes de etiquetado con una cola de Amazon SQS .