Pour commencer : créez une tâche d'étiquetage de boîtes de délimitation avec Ground Truth - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Pour commencer : créez une tâche d'étiquetage de boîtes de délimitation avec Ground Truth

Pour commencer à utiliser Amazon SageMaker Ground Truth, suivez les instructions des sections suivantes. Les sections ci-dessous expliquent comment utiliser la console pour créer une tâche d'étiquetage dans un cadre délimitant, affecter une main-d'œuvre publique ou privée et envoyer la tâche d'étiquetage à votre personnel. Vous allez également apprendre à contrôler la progression d'une tâche d'étiquetage.

Cette vidéo explique comment configurer et utiliser Amazon SageMaker Ground Truth. (Durée : 9 h 37)

Si vous souhaitez créer un flux d'étiquetage personnalisé, veuillez consulter les instructions de Flux de travail d'étiquetage personnalisés.

Avant de créer une tâche d'étiquetage, vous devez télécharger votre jeu de données dans un compartiment Amazon S3. Pour de plus amples informations, veuillez consulter Utiliser les données d'entrée et de sortie.

Avant de commencer

Avant de commencer à utiliser la SageMaker console pour créer une tâche d'étiquetage, vous devez configurer le jeu de données en vue de son utilisation. Faites ceci :

  1. Enregistrez deux images accessibles au public HTTPURLs. Ces images sont utilisées pour créer les instructions applicables aux tâches d'étiquetage. Les proportions des images doivent être d'environ 2:1. Dans le cadre de cet exercice, le contenu des images n'a pas importance.

  2. Créez un compartiment Amazon S3 pour y stocker les fichiers d'entrée et de sortie. Le compartiment doit être situé dans la même région que celle où vous exécutez Ground Truth. Notez le nom du compartiment, car vous allez l'utiliser à l'étape 2.

    Ground Truth exige que tous les compartiments S3 contenant les données d'image d'entrée des tâches d'étiquetage soient assortis d'une CORS politique. Pour en savoir plus sur cette modification, veuillez consulter CORSExigence relative aux données d'image d'entrée.

  3. Vous pouvez créer un IAM rôle ou laisser SageMaker créer un rôle avec la AmazonSageMakerFullAccessIAMpolitique. Reportez-vous à la section Création de IAM rôles et attribuez la politique d'autorisation suivante à l'utilisateur qui crée la tâche d'étiquetage :

    { "Version": "2012-10-17", "Statement": [ { "Sid": "sagemakergroundtruth", "Effect": "Allow", "Action": [ "cognito-idp:CreateGroup", "cognito-idp:CreateUserPool", "cognito-idp:CreateUserPoolDomain", "cognito-idp:AdminCreateUser", "cognito-idp:CreateUserPoolClient", "cognito-idp:AdminAddUserToGroup", "cognito-idp:DescribeUserPoolClient", "cognito-idp:DescribeUserPool", "cognito-idp:UpdateUserPool" ], "Resource": "*" } ] }

Création d'une tâche d'étiquetage

Au cours de cette étape, vous utilisez la console pour créer une tâche d'étiquetage. Vous indiquez à Amazon SageMaker Ground Truth le compartiment Amazon S3 dans lequel le fichier manifeste est stocké et vous configurez les paramètres de la tâche. Pour plus d'informations sur le stockage de données dans un compartiment Amazon S3, veuillez consulter Utiliser les données d'entrée et de sortie.

Pour créer une tâche d'étiquetage
  1. Ouvrez la SageMaker console à l'adresse https://console.aws.amazon.com/sagemaker/.

  2. Dans le panneau de navigation de gauche, choisissez Labeling jobs (Tâches d'étiquetage).

  3. Choisissez Create labeling job (Créer une tâche d'étiquetage) pour lancer le processus de création de la tâche.

  4. Dans la section Job overview (Présentation de la tâche), renseignez les champs suivants :

    • Job name (Nom de la tâche) – Attribuez à la tâche d'étiquetage un nom qui la décrit. Ce nom s'affiche dans votre liste de tâches. Le nom doit être unique dans votre compte dans une AWS région.

    • Label attribute name (Nom d'attribut de l'étiquette) – Laissez cette option désactivée, car la valeur par défaut est la meilleure option pour cette tâche d'introduction.

    • Input data setup (Configuration des données d'entrée) – Sélectionnez Automated data setup (Configuration automatisée des données). Cette option vous permet de vous connecter automatiquement à vos données d'entrée dans S3.

    • S3 location for input datasets (Emplacement S3 pour les jeux de données source) – Saisissez l'emplacement S3 où vous avez ajouté les images à l'étape 1.

    • S3 location for output datasets (Emplacement S3 pour les jeux de données de sortie) – L'emplacement où vos données de sortie sont écrites dans S3.

    • Data type (Type de données) – Utilisez le menu déroulant pour sélectionner Image. Ground Truth utilisera toutes les images trouvées dans l'emplacement S3 pour les jeux de données source comme entrée pour votre tâche d'étiquetage.

    • IAMrôle : créez ou choisissez un IAM rôle auquel la AmazonSageMakerFullAccess IAM politique est attachée.

  5. Dans la section Task type (Type de tâche), pour le champ Task category (Catégorie de tâches), choisissez Image.

  6. Dans Task selection (Sélection des tâches), choisissez Bounding box.

  7. Choisissez Suivant pour passer à la configuration de votre tâche d'étiquetage.

Sélectionnez les travailleurs

Au cours de cette étape, vous allez choisir une main-d'œuvre pour étiqueter votre ensemble de données. Il est recommandé de créer une équipe privée pour tester Amazon SageMaker Ground Truth. Utilisez des adresses électroniques pour inviter les membres de votre main-d'œuvre. Si vous créez une main-d'œuvre privée à cette étape, vous ne pourrez pas importer votre groupe d'utilisateurs Amazon Cognito ultérieurement. Si vous souhaitez créer une main-d'œuvre privée à l'aide d'un sondage auprès des utilisateurs Amazon Cognito, consultez Gérer une main-d'œuvre privée (Amazon Cognito) et utilisez la main-d'œuvre Mechanical Turk en lieu et place dans ce tutoriel.

Astuce

Pour en savoir plus sur les autres options de main-d'œuvre que vous pouvez utiliser avec Ground Truth, veuillez consulter Main-d'œuvre.

Pour créer une main-d'œuvre privée :
  1. Dans la section Workers (Employés), choisissez Private (Privé).

  2. Si vous utilisez une main-d'œuvre privée pour la première fois, saisissez jusqu'à 100 adresses e-mail dans le champ Email addresses (Adresses e-mail). Les adresses doivent être séparées par une virgule. Vous devez inclure votre propre adresse e-mail pour faire partie de la main-d'œuvre et voir ainsi les tâches d'étiquetage des objets de données.

  3. Dans le champ Organization name (Nom de l'organisation), saisissez le nom de votre organisation. Cette information sert à personnaliser l'e-mail envoyé pour inviter une personne à rejoindre votre main-d'œuvre privée. Vous pouvez modifier le nom de l'organisation une fois que le groupe d'utilisateurs est créé via la console.

  4. Dans le champ Contact email (Adresse e-mail de contact), saisissez une adresse e-mail que les membres de la main-d'œuvre utiliseront pour signaler les problèmes liés à la tâche.

Si vous vous ajoutez à la main-d'œuvre privée, vous recevrez un e-mail similaire à celui-ci. Amazon, Inc. est remplacé par l'organisation que vous saisissez à l'étape 3 de la procédure précédente. Sélectionnez le lien contenu dans l'e-mail pour vous connecter à l'aide du mot de passe temporaire fourni. Si vous y êtes invité, modifiez votre mot de passe. Lorsque vous vous authentifiez avec succès, le portail d'employé contenant vos tâches d'étiquetage s'affiche.

Exemple d'invitation par e-mail à travailler sur un projet d'étiquetage.
Astuce

Vous trouverez le lien vers le portail réservé aux employés de votre entreprise privée dans la section Labeling workforce de la zone Ground Truth de la SageMaker console. Pour afficher le lien, sélectionnez l'onglet Private (Privé). Le lien se trouve sous l'URLen-tête de connexion au portail d'étiquetage dans le résumé des effectifs du secteur privé.

Si vous choisissez d'utiliser la main-d'œuvre d'Amazon Mechanical Turk pour étiqueter le jeu de données, vous êtes facturé pour les tâches d'étiquetage effectuées sur ce jeu de données.

Utilisation de main-d'œuvre Amazon Mechanical Turk :
  1. Dans la section Workers (Employés), choisissez Public.

  2. Définir un Price per task (Prix par tâche).

  3. Choisissez The dataset does not contain adult content (L'ensemble de données ne contient pas de contenu pour adulte) pour reconnaître que le jeu de données échantillon ne contient pas de contenu pour adultes. Ces informations permettent à Amazon SageMaker Ground Truth d'avertir les utilisateurs externes de Mechanical Turk qu'ils pourraient rencontrer du contenu potentiellement offensant dans votre ensemble de données.

  4. Cochez la case à côté de l'énoncé suivant pour confirmer que l'exemple de jeu de données ne contient aucune information personnellement identifiable (PII). Il s'agit d'une exigence pour utiliser Mechanical Turk avec Ground Truth. Si vos données d'entrée en contiennentPII, faites appel à du personnel privé pour ce didacticiel.

    Vous comprenez et acceptez que la main-d'œuvre d'Amazon Mechanical Turk est composée d'entrepreneurs indépendants situés dans le monde entier et que vous ne devez pas partager d'informations confidentielles, d'informations personnelles ni d'informations de santé protégées avec cette main-d'œuvre.

Configuration de l'outil Bounding Box

Pour finir, vous allez configurer l'outil de délimitation pour donner des instructions à vos employés. Vous pouvez configurer un titre qui décrit la tâche et fournit des instructions détaillées pour les employés. Vous pouvez fournir des instructions rapides et complètes. Les instructions rapides sont affichées en regard de l'image à étiqueter. Les instructions complètes contiennent des instructions détaillées pour réaliser la tâche. Dans cet exemple, vous fournissez uniquement des instructions rapides. Vous pouvez voir un exemple d'instructions complètes en choisissant Full instructions (Instructions complètes) en bas de la section.

Pour configurer l'outil de délimitation
  1. Dans le champ Task description (Description de la tâche), saisissez des instructions rapides pour la tâche. Par exemple :

    Draw a box around any objects in the image.

    Remplacez objects avec le nom d'un objet qui apparaît dans vos images.

  2. Dans le champ Labels (Étiquettes), saisissez un nom de catégorie pour les objets autour desquels l'employé doit dessiner un cadre de délimitation. Par exemple, si vous demandez à l'employé de dessiner des cadres autour de joueurs de football, vous pouvez saisir « Joueur de football » dans ce champ.

  3. La section Short instructions (Instructions rapides) vous permet de saisir les instructions qui s'affichent à l'écran avec l'image que vos employés étiquettent. Nous vous suggérons d'inclure un exemple de cadre de délimitation correctement dessiné et un autre de cadre de délimitation mal dessiné. Pour créer vos propres instructions, effectuez ces étapes :

    1. Sélectionnez le texte entre GOODEXAMPLEet l'espace réservé à l'image. Remplacez-le par le texte suivant :

      Draw the box around the object with a small border.

    2. Sélectionnez le premier espace pour image et supprimez-le.

    3. Cliquez sur le bouton image, puis saisissez celle HTTPS URL de l'une des images que vous avez créées à l'étape 1. Il est également possible d'incorporer des images directement dans la section des instructions courtes, mais cette section a un quota de 100 kilo-octets (texte inclus). Si vos images et vos textes dépassent 100 kilo-octets, vous recevez une erreur.

    4. Sélectionnez le texte entre BADEXAMPLEet l'espace réservé à l'image. Remplacez-le par le texte suivant :

      Don't make the bounding box too large or cut into the object.

    5. Sélectionnez le deuxième espace pour image et supprimez-le.

    6. Cliquez sur le bouton image, puis saisissez HTTPS URL l'autre image que vous avez créée à l'étape 1.

  4. Sélectionnez Preview (Prévisualisation) pour prévisualiser l'interface utilisateur employé. La prévisualisation s'ouvre dans un nouvel onglet. Par conséquent, si votre navigateur bloque les fenêtres contextuelles, vous devrez peut-être activer manuellement l'onglet pour l'ouvrir. Lorsque vous ajoutez une ou plusieurs annotations à la prévisualisation et que vous sélectionnez ensuite Submit (Envoyer), vous pouvez voir une prévisualisation des données de sortie que votre annotation aurait créées.

  5. Après avoir configuré et vérifié vos instructions, sélectionnez Create (Créer) pour créer la tâche d'étiquetage.

Si vous avez utilisé une main-d'œuvre privée, vous pouvez accéder au portail d'employé auquel vous vous êtes connecté à la section Sélectionnez les travailleurs de ce didacticiel pour voir vos tâches d'étiquetage. Les tâches peuvent prendre quelques minutes pour apparaître.

Maintenant que vous avez créé une tâche d'étiquetage, vous pouvez la surveiller ou l'arrêter.