Chaînage des tâches d'étiquetage - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Chaînage des tâches d'étiquetage

Amazon SageMaker Ground Truth peut réutiliser les ensembles de données de tâches précédentes de deux manières : par clonage et par chaînage.

Le clonage copie la configuration d'une tâche d'étiquetage préalable et vous permet d'apporter des modifications supplémentaires, avant de préparer l'exécution.

Le chaînage utilise non seulement la configuration de la tâche antérieure, mais aussi les résultats. Cela vous permet de poursuivre une tâche incomplète et d'ajouter des étiquettes ou des objets de données à une tâche terminée. Le chaînage est une opération plus complexe.

Pour le traitement des données :

  • Le clonage utilise le manifeste d'entrée de la tâche précédente, avec des modifications facultatives, comme le manifeste d'entrée du nouveau travail.

  • Le chaînage utilise le manifeste de sortie de la tâche précédente comme manifeste d'entrée de la nouvelle tâche.

Le chaînage est utile lorsque vous devez :

  • Poursuivre une tâche d'étiquetage qui a été arrêtée manuellement.

  • Continuez un travail d'étiquetage qui a échoué en milieu de travail, après avoir corrigé les problèmes.

  • Basculer vers l'étiquetage automatisé après l'étiquetage manuel dans le cadre d'une tâche (ou inversement).

  • Ajouter d'autres objets de données à la fin de la tâche et de démarrer la tâche à partir de là.

  • Ajouter une autre annotation à une tâche terminée. Par exemple, vous disposez d'un ensemble de phrases étiquetées pour la rubrique, puis vous souhaitez exécuter l'ensemble à nouveau, le classer par public implicite de la rubrique.

Dans Amazon SageMaker Ground Truth, vous pouvez configurer une tâche d'étiquetage chaînée au moyen de la console ou de l'API.

Terme clé : nom d'attribut de l'étiquette

Le nom d'attribut d'étiquette (LabelAttributeName dans l'API) est une chaîne utilisée comme clé pour la paire clé-valeur entraînée avec l'étiquette qu'un travailleur attribue à l'objet de données.

Les règles suivantes s'appliquent au nom d'attribut d'étiquette :

  • Ne peut pas finir par -metadata.

  • Les noms source et source-ref sont réservés et ne peuvent pas être utilisés.

  • Pour les travaux d'étiquetage de segmentation sémantique, il doit se terminer par -ref. Pour tous les autres travaux d'étiquetage, cela ne peut pas se terminer par -ref. Si vous utilisez la console pour créer la tâche, Amazon SageMaker Ground Truth ajoute automatiquement -ref à tous les noms d'attributs d'étiquette, à l'exception des tâches de segmentation sémantique.

  • Si vous utilisez le même nom d'attribut d'étiquette à partir de la tâche initiale et que vous configurez la tâche pour utiliser l'étiquetage automatique, s'il a été en mode d'étiquetage automatique à un moment donné, Ground Truth utilise le modèle de la tâche initiale.

Dans un manifeste de sortie, le nom de l'attribut label apparaît similaire au suivant.

"source-ref": "<S3 URI>", "<label attribute name>": { "annotations": [{ "class_id": 0, "width": 99, "top": 87, "height": 62, "left": 175 }], "image_size": [{ "width": 344, "depth": 3, "height": 234 }] }, "<label attribute name>-metadata": { "job-name": "<job name>", "class-map": { "0": "<label attribute name>" }, "human-annotated": "yes", "objects": [{ "confidence": 0.09 }], "creation-date": "<timestamp>", "type": "groundtruth/object-detection" }

Si vous créez une tâche dans la console et que vous ne définissez pas explicitement la valeur du nom d'attribut de l'étiquette, Ground Truth utilise le nom de la tâche comme nom d'attribut d'étiquette pour la tâche.

Démarrer une tâche chaînée (console)

Sélectionnez une tâche d'étiquetage arrêtée, échouée ou terminée dans la liste de vos tâches existantes. Cela active le menu Actions.

Dans le menu Actions, choisissez Chain (Chaîner).

Panneau de présentation de tâche

Dans le panneau Présentation de la tâche, un nouveau Nom de tâche est défini en fonction du titre de la tâche à partir de laquelle vous chaînez celle-ci. Vous pouvez le modifier.

Vous pouvez également spécifier un nom d'attribut d'étiquette différent de celui de la tâche d'étiquetage.

Si vous chaînez depuis une tâche terminée, le nom d'attribut de l'étiquette utilise le nom de la nouvelle tâche que vous configurez. Pour modifier le nom, cochez la case.

Si vous chaînez à partir d'une tâche arrêtée ou échouée, le nom de l'attribut de l'étiquette utilise le nom de la tâche à partir de laquelle vous chaînez. Il est facile de voir et de modifier la valeur, car la case à cocher du nom est activée.

Considérations sur l'attribution de noms aux étiquettes d'attributs
  • La valeur par défaut utilise le nom d'attribut de l'étiquette que Ground Truth a sélectionné. Tous les objets de données sans données connectées à ce nom d'attribut d'étiquette sont étiquetés.

  • L'utilisation d'un nom d'attribut d'étiquette qui n'est pas présent dans le manifeste fait que la tâche traite tous les objets de l'ensemble de données.

L'emplacement de l'ensemble de données d'entrée dans ce cas est sélectionné automatiquement comme manifeste de sortie de la tâche chaînée. Le champ de saisie n'est pas disponible, vous ne pouvez pas le modifier.

Ajout des objets de données pour une tâche d'étiquetage

Vous ne pouvez pas spécifier un autre fichier manifeste. Modifiez manuellement la sortie manifeste à partir de la tâche précédente pour ajouter de nouveaux éléments avant de démarrer une tâche de chaînage. L'URI Amazon S3 vous aide à déterminer l'endroit où vous stockez le manifeste dans votre compartiment S3. Téléchargez le fichier manifeste à partir de là, modifiez-le localement sur votre ordinateur, puis téléchargez la nouvelle version pour le remplacer. Vérifiez que vous n'ajoutez pas d'erreurs lors de la modification. Nous vous recommandons d'utiliser JSON linter pour vérifier votre JSON. De nombreux éditeurs de texte courants et des IDE ont des plug-ins linter disponibles.

Démarrer une tâche chaînée (API)

La procédure est presque identique à la mise en place d'une nouvelle tâche d'étiquetage avec CreateLabelingJob, à l'exception de deux différences principales.

  • Emplacement du fichier manifeste : au lieu d'utiliser votre manifeste initial avant la tâche, la valeur de ManifestS3Uri dans DataSource doit pointer vers l'URI Amazon S3 du manifeste de sortie depuis la tâche d'étiquetage précédente.

  • Nom d'attribut de l'étiquette : il est important de définir la valeur correcte pour LabelAttributeName ici. Il s'agit de la partie clé d'une paire clé-valeur où les données d'étiquetage constituent la valeur. Les exemples de cas d'utilisation incluent :

    • Ajout de nouvelles étiquettes ou d'étiquettes spécifiques à une tâche terminée — Définit un nouveau nom d'attribut d'étiquette.

    • Étiquetage d'articles sans étiquette d'une tâche précédente — Utilise le nom d'attribut de l'étiquette d'une tâche précédente.

Utiliser un ensemble de données étiquetées partiellement

Vous pouvez obtenir certains avantages de chaînage si vous utilisez un manifeste augmenté qui a déjà été partiellement étiqueté. Activez la case à cocher Nom d'attribut d'étiquette et définissez le nom de façon à ce qu'il corresponde au nom dans votre fichier manifeste.

Si vous utilisez l'API, les instructions sont les mêmes que celle pour le démarrage d'une tâche chaînée. Toutefois, n'oubliez pas de télécharger votre fichier manifeste dans un compartiment Amazon S3 et utilisez-le au lieu d'utiliser le manifeste de sortie d'une tâche précédente.

La valeur du nom d'attribut d'étiquette dans le manifeste doit respecter les considérations relatives à l'attribution de noms présentées ci-dessus.