Contrôler le flux des objets de données envoyés aux employés - Amazon SageMaker

Contrôler le flux des objets de données envoyés aux employés

Selon le type de tâche d'étiquetage que vous créez, Amazon SageMaker Ground Truth envoie des objets de données aux employés par lots ou en streaming. Vous pouvez contrôler le flux d'objets de données vers les employés de la manière suivante :

  • Pour les deux types de travaux d'étiquetage, vous pouvez utiliser MaxConcurrentTaskCount pour contrôler le nombre total d'objets de données disponibles pour tous les employés à un moment donné lors de l'exécution de la tâche d'étiquetage.

  • Pour les tâches d'étiquetage en streaming, vous pouvez contrôler le flux d'objets de données vers les employés en surveillant et en contrôlant le nombre d'objets de données envoyés à Amazon SQS associés à votre tâche d'étiquetage.

Utilisez les sections suivantes pour en savoir plus sur ces options. Pour en savoir plus sur les tâches d'étiquetage en streaming, veuillez consulter Tâches d'étiquetage en streaming Ground Truth.

Utiliser MaxConcurrentTaskCount pour contrôler le flux des objets de données

MaxConcurrentTaskCount définit le nombre maximal d'objets de données qui peuvent être étiquetées par les employés humains en même temps. Si vous utilisez la console, ce paramètre est défini à 1 000. Si vous utilisez CreateLabelingJob, vous pouvez définir ce paramètre sur n'importe quel nombre entier compris entre 1 et 1 000 inclus.

Lorsque vous démarrez une tâche d'étiquetage à l'aide d'un fichier manifeste source, Ground Truth effectue les opérations suivantes :

  1. Pour chaque objet de données répertorié dans votre fichier manifeste source, une ou plusieurs tâches sont créées, en fonction de la valeur que vous spécifiez pour NumberOfHumanWorkersPerDataObject. Par exemple, si vous définissez le nombre d'employés par objet de données sur 3, 3 tâches seront créées pour chaque objet de jeu de données. Pour être marqué comme étiqueté avec succès, au moins un employé doit étiqueter l'objet. Alternativement, les tâches peuvent expirer ou être refusées.

  2. Si vous utilisez la main-d'œuvre Mechanical Turk, Ground Truth envoie d'abord un lot de 10 objets de jeu de données à vos employés. Il utilise ce petit lot pour configurer la tâche d'étiquetage et veiller à ce que cette dernière soit correctement configurée.

  3. Ensuite, Ground Truth envoie MaxConcurrentTaskCount nombre d'objets de jeu de données aux employés. Par exemple, si vous avez 2 000 objets de données source dans votre fichier manifeste source, que vous avez défini le nombre d'employés par objet de données sur 3 et que vous définissez MaxConcurrentTaskCount à 900, les 900 premiers objets de données de votre manifeste d'entrée sont envoyés aux employés, ce qui correspond à 2 700 tâches (900 x 3). Il s'agit du premier jeu complet d'objets envoyés aux employés.

  4. Ce qui se produit dépend du type de tâche d'étiquetage que vous créez. Cette étape suppose qu'un ou plusieurs objets de jeu de données dans votre fichier manifeste source, ou envoyés à l'aide d'une source de données Amazon SNS (dans une tâche d'étiquetage en streaming) n'ont pas été inclus dans le jeu envoyé aux employés à l'étape 3.

    • Tâche d'étiquetage en streaming : tant que le nombre total d'objets disponibles pour les employés est égal à MaxConcurrentTaskCount, tous les objets de jeu de données restants sur votre fichier manifeste source et que vous envoyez en temps réel à l'aide d'Amazon SNS sont placés dans une file d'attente Amazon SQS. Lorsque le nombre total d'objets disponibles aux employés est inférieur à MaxConcurrentTaskCount moins NumberOfHumanWorkersPerDataObject, un nouvel objet de données de la file d'attente est utilisé pour créer NumberOfHumanWorkersPerDataObject-tâches, qui sont envoyées aux employés en temps réel.

    • Tâche d'étiquetage ponctuelle (qui ne s'exécute pas en streaming) : au fur et à mesure que les employés terminent l'étiquetage d'un jeu d'objets, jusqu'à MaxConcurrentTaskCount x NumberOfHumanWorkersPerDataObject nombre de nouvelles tâches seront envoyées aux employés. Ce processus est répété jusqu'à ce que tous les objets de données du fichier manifeste source soient étiquetés.

Utiliser Amazon SQS pour contrôler le flux d'objets de données vers les tâches d'étiquetage en streaming

Lorsque vous créez une tâche d'étiquetage en streaming, une file d'attente Amazon SQS est automatiquement créée dans votre compte. Les objets de données ne sont ajoutés à la file d'attente Amazon SQS que lorsque le nombre total d'objets envoyés aux employés est supérieur à MaxConcurrentTaskCount. Sinon, les objets sont envoyés directement aux employés.

Vous pouvez utiliser cette file d'attente pour gérer le flux d'objets de données vers votre tâche d'étiquetage. Pour en savoir plus, consultez Gérer les requêtes d'étiquetage à l'aide d'une file d'attente Amazon SQS .