Controle o fluxo de objetos de dados enviados aos trabalhadores - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Controle o fluxo de objetos de dados enviados aos trabalhadores

Dependendo do tipo de trabalho de rotulagem que você criar, o Amazon SageMaker Ground Truth envia objetos de dados aos trabalhadores em lotes ou em streaming. Você pode controlar o fluxo dos objetos de dados para os trabalhadores das seguintes maneiras:

  • Para os dois tipos de trabalhos de rotulagem, você pode usar o MaxConcurrentTaskCount para controlar o número total de objetos de dados disponíveis para todos os trabalhadores em um determinado momento em que o trabalho de rotulagem está em execução.

  • Para trabalhos de rotulagem de streaming, você pode controlar o fluxo de objetos de dados para os trabalhadores monitorando e controlando o número de objetos de dados enviados para o Amazon SQS associados ao trabalho de etiquetagem.

Use as seguintes seções para saber mais sobre essas opções. Para saber mais sobre o trabalho de rotulagem de streaming, consulte Trabalhos de etiquetagem em Ground Truth Streaming.

Use MaxConcurrentTaskCount para controlar o fluxo de objetos de dados

O MaxConcurrentTaskCount define o número máximo de objetos de dados que podem ser rotulados por trabalhadores humanos ao mesmo tempo. Se você usar o console, esse parâmetro será definido como 1.000. Se você usar o CreateLabelingJob, poderá definir esse parâmetro como qualquer número inteiro entre 1 e 1.000, inclusive.

Quando você inicia um trabalho de rotulagem usando um arquivo manifesto de entrada, o Ground Truth faz o seguinte:

  1. Para cada objeto de dados listado em seu arquivo de manifesto de entrada, uma ou mais tarefas são criadas, dependendo do valor especificado NumberOfHumanWorkersPerDataObject. Por exemplo, se você definir o número de trabalhadores por objeto de dados como três, três tarefas serão criadas para cada objeto do conjunto de dados. Para ser marcado como rotulado com sucesso, pelo menos um trabalhador deve rotular o objeto. Como alternativa, as tarefas podem expirar ou ser recusadas.

  2. Se você estiver usando a força de trabalho Mechanical Turk, o Ground Truth primeiro envia um lote de dez objetos de conjunto de dados para os trabalhadores. Ele usa esse pequeno lote para configurar o trabalho de rotulagem e certificar-se de que o trabalho esteja configurado corretamente.

  3. Em seguida, a Ground Truth envia um número MaxConcurrentTaskCount de objetos do conjunto de dados aos trabalhadores. Por exemplo, se você tiver 2.000 objetos de dados de entrada no arquivo de manifesto de entrada e tiver definido o número de trabalhadores por objeto de dados como 3 e definido como MaxConcurrentTaskCount para 900, os primeiros 900 objetos de dados no manifesto de entrada serão enviados aos trabalhadores, correspondendo a 2.700 tarefas (900 x 3). Esse é o primeiro conjunto de objetos em tamanho real enviado aos trabalhadores.

  4. O que acontece em seguida depende do tipo de trabalho de rotulagem que você criar. Essa etapa pressupõe que um ou mais objetos do conjunto de dados no arquivo de manifesto de entrada ou enviados usando uma fonte de dados de entrada do Amazon SNS (em um trabalho de rotulagem de streaming) não foram incluídos no conjunto enviado aos trabalhadores na etapa 3.

    • Trabalho de rotulagem de streaming: desde que o número total de objetos disponíveis para os trabalhadores seja igual a MaxConcurrentTaskCount, todos os objetos restantes do conjunto de dados no arquivo de manifesto de entrada e que você envia em tempo real usando o Amazon SNS são colocados em uma fila do Amazon SQS. Quando o número total de objetos disponíveis para os trabalhadores fica abaixo de MaxConcurrentTaskCount menos NumberOfHumanWorkersPerDataObject, um novo objeto de dados da fila é usado para criar tarefas NumberOfHumanWorkersPerDataObject, que são enviadas aos trabalhadores em tempo real.

    • Trabalho de rotulagem sem streaming: à medida que os trabalhadores terminam de rotular um conjunto de objetos, até MaxConcurrentTaskCountvezes o número NumberOfHumanWorkersPerDataObject de novas tarefas será enviado aos trabalhadores . Esse processo é repetido até que todos os objetos de dados no arquivo manifesto de entrada sejam rotulados.

Use o Amazon SQS para controlar o fluxo de objetos de dados para trabalhos de rotulagem de streaming

Quando você cria um trabalho de rotulagem de streaming, uma fila do Amazon SQS é criada automaticamente na sua conta. Os objetos de dados só são adicionados à fila do Amazon SQS quando o número total de objetos enviados aos trabalhadores está acimade MaxConcurrentTaskCount. Caso contrário, os objetos são enviados diretamente aos trabalhadores.

Você pode usar essa fila para gerenciar o fluxo de objetos de dados para a tarefa de etiquetagem. Para saber mais, consulte Gerencie solicitações de rotulagem com uma fila do Amazon SQS .