Utilisation de main-d'œuvre Amazon Mechanical Turk - Amazon SageMaker

Utilisation de main-d'œuvre Amazon Mechanical Turk

La main-d'œuvre Amazon Mechanical Turk (Mechanical Turk) propose le plus grand nombre d'employés pour votre tâche de labélisation Amazon SageMaker Ground Truth et votre tâche de révision humaine Amazon Augmented AI. La main-d'œuvre Amazon Mechanical Turk est une ressource accessible dans le monde entier. Les employés sont disponibles 24 heures sur 24, 7 jours sur 7. Généralement, le délai d'exécution de vos tâches de vérification humaine et de labélisation est plus rapide si vous faites appel à la main-d'œuvre Amazon Mechanical Turk.

Toute facturation de main-d'œuvre Amazon Mechanical Turk est gérée dans le cadre de votre facturation Ground Truth ou Amazon Augmented AI. Vous n'avez pas besoin de créer un compte Mechanical Turk distinct pour utiliser la main-d'œuvre Amazon Mechanical Turk.

Important

Vous ne devez pas partager des informations confidentielles, personnelles ou d'état protégées avec cette main-d'œuvre. Vous ne devez pas utiliser la main-d'œuvre Amazon Mechanical Turk lorsque vous utilisez Amazon A2I en conjonction avec des services AWS éligibles HIPAA, tels que Amazon Textract et Amazon Rekognition, pour des charges de travail contenant des informations d'état protégées.

Vous pouvez choisir Mechanical Turk comme main-d'œuvre lorsque vous créez un travail de labélisation Ground Truth ou un flux de travail de révision humaine Amazon A2I (définition de flux). Vous pouvez créer une tâche de labélisation et un flux de travail de révision humaine à l'aide de la console et de l'API SageMaker.

Lorsque vous utilisez une opération API pour créer une tâche de labélisation ou un flux de travail de révision humaine, vous utilisez l'ARN suivant pour la main-d'œuvre Amazon Mechanical Turk pour votre WorkteamArn. Remplacez region par la région AWS que vous utilisez pour créer la tâche de labélisation ou les boucles humaines. Par exemple, si vous créez une tâche de labélisation dans la région USA Ouest (Oregon), remplacez region par us-west-2.

  • arn:aws:sagemaker:region:394669845002:workteam/public-crowd/default

Ground Truth et Amazon A2I requiert que vos données d'entrée sont exemptes de données d'identification personnelle (PII) lorsque vous utilisez Mechanical Turk. Si vous utilisez la main-d'œuvre Mechanical Turk et que vous ne spécifiez pas que vos données en entrée sont exemptes de PII, vos tâches de labélisation Ground Truth et vos tâches d'Augmented AI échoueront. Vous spécifiez que vos données d'entrée sont exemptes de PII lorsque vous créez un travail de labélisation Ground Truth et lorsque vous créez une boucle humaine Amazon A2I à l'aide d'une intégration incorporée ou de l'opération StartHumanLoop.

Consultez les sections suivantes pour savoir comment utiliser Mechanical Turk avec ces services.

Utiliser Mechanical Turk avec Ground Truth

Vous pouvez utiliser Mechanical Turk avec Ground Truth lorsque vous créez une tâche de labélisation à l'aide de la console ou de l'opération CreateLabelingJob.

Lorsque vous créez une tâche de labélisation, nous vous recommandons d'ajuster le nombre d'employés annotant chaque objet de données en fonction de la complexité de la tâche et de la qualité dont vous avez besoin. Amazon SageMaker Ground Truth utilise la consolidation des annotations pour améliorer la qualité des étiquettes. Le recours à un plus grand nombre d'employés peut avoir une incidence sur la qualité des étiquettes pour les tâches d'étiquetage complexes, mais pas pour les tâches simples. Pour de plus amples informations, veuillez consulter Consolider les annotations. La consolidation des annotations n'est pas prise en charge pour les flux de travail de révision humaine Amazon A2I.

Pour utiliser Mechanical Turk lorsque vous créez une tâche de labélisation (console) :

  1. Utilisez les éléments suivants pour créer un travail de labélisation à l'aide de la zone Ground Truth de la console SageMaker : Création d'une tâche d'étiquetage (Console).

  2. Lorsque vous sélectionnez Worker types (Types de travail) dans la section Workers (Employés), sélectionnez Amazon Mechanical Turk.

  3. Spécifiez le temps total de travail dont disposent les employés pour effectuer une tâche à l'aide de Task timeout (Délai d'exécution de la tâche).

  4. Spécifiez la durée totale pendant laquelle une tâche reste disponible pour les employés dans Task expiration (Expiration de la tâche). C'est le temps dont disposent les employés pour reprendre une tâche avant qu'elle n'échoue.

  5. Sélectionnez le Price per task (Prix par tâche) à l'aide de la liste déroulante. Il s'agit de la somme d'argent qu'un employé reçoit pour accomplir une seule tâche.

  6. (Facultatif) Le cas échéant, sélectionnez The dataset does not contain adult content (Le jeu de données ne contient aucun contenu pour adultes). SageMaker peut restreindre les employés de Mechanical Turk habilités à afficher votre tâche si elle contient du contenu pour adultes.

  7. Vous devez lire et confirmer la déclaration suivante en cochant la case pour utiliser la main-d'œuvre Mechanical Turk. Si vos données d'entrée contiennent des informations confidentielles, personnelles ou des renseignements sur l'état, vous devez sélectionner une autre main-d'œuvre.

    Vous comprenez et acceptez que la main-d'œuvre de Mechanical Turk est composée d'entrepreneurs indépendants situés dans le monde entier et que vous ne devez pas partager des informations confidentielles, personnelles ou des renseignements sur l'état protégés avec cette main-d'œuvre.

  8. (Facultatif) Cochez la case en regard de Enable automated data labeling (Activer l'étiquetage automatisé des données) si vous souhaitez activer l'étiquetage automatisé des données. Pour en savoir plus sur cette fonction, veuillez consulter Automatiser l'étiquetage des données.

  9. Vous pouvez spécifier la valeur Number of workers per dataset object (Nombre d'employés par objet jeu de données) sous Additional configuration (Configuration supplémentaire). Par exemple, si vous saisissez 3 dans ce champ, chaque objet de données sera labélisée par 3 employés.

Lorsque vous créez votre travail de labélisation en cliquant sur Create (Créer), vos tâches de labélisation sont envoyées aux employés de Mechanical Turk.

Pour utiliser Mechanical Turk lorsque vous créez une tâche de labélisation (API) :

  1. Pour créer une tâche de labélisation à l'aide de l'API CreateLabelingJob, utilisez l'opération Création d'une tâche d'étiquetage (API).

  2. Utilisez le format suivant pour le WorkteamArn. Remplacez region par la région AWS que vous utilisez pour créer la tâche de labélisation ou les boucles humaines.

    arn:aws:sagemaker:region:394669845002:workteam/public-crowd/default

  3. Utiliser TaskTimeLimitInSeconds pour spécifier le temps total de travail dont disposent les employés pour effectuer une tâche.

  4. Utiliser TaskAvailabilityLifetimeInSeconds pour spécifier la durée totale pendant laquelle une tâche reste disponible pour les employés. C'est le temps dont disposent les employés pour reprendre une tâche avant qu'elle n'échoue.

  5. Utiliser NumberOfHumanWorkersPerDataObject pour spécifier le nombre d'employés par objet du jeu de données.

  6. Utiliser PublicWorkforceTaskPrice pour définir le prix par tâche. Il s'agit de la somme d'argent qu'un employé reçoit pour accomplir une seule tâche.

  7. Utiliser DataAttributes pour spécifier que vos données d'entrée sont exemptes d'informations confidentielles, personnelles ou d'informations sur l'état protégées.

    Ground Truth nécessite que vos données d'entrée soient exemptes de données d'identification personnelle (PII) si vous utilisez la main-d'œuvre de Mechanical Turk. Si vous utilisez Mechanical Turk et que vous ne spécifiez pas que vos données d'entrée sont exemptes de PII à l'aide de l'indicateur FreeOfPersonallyIdentifiableInformation, votre travail de labélisation échouera.

    Utilisez l'indicateur FreeOfAdultContent pour déclarer que vos données d'entrée ne contiennent pas de contenu pour adultes. SageMaker peut restreindre les employés de Mechanical Turk habilités à afficher votre tâche si elle contient du contenu pour adultes.

Vous pouvez voir des exemples d'utilisation de cette API dans les blocs-notes suivants, trouvés sur GitHub :Ground Truth Jupyter Notebook Examples. Vous pouvez accéder à ces blocs-notes sous SageMaker Exemples de blocs-notesdans une instance de bloc-notes.

Utilisez Mechanical Turk avec Amazon A2I

Vous pouvez spécifier que vous souhaitez utiliser Mechanical Turk avec Amazon A2I lorsque vous créez un workflow de révision humaine, également appelé Définition de flux, dans la console, ou avec l'opération d'API CreateFlowDefinition. Lorsque vous utilisez ce flux de révision humaine pour configurer des boucles humaines, vous devez spécifier que vos données en entrée sont exemptes de PII.

Pour utiliser Mechanical Turk lorsque vous créez un flux de travail de révision humaine (console) :

  1. Pour créer un flux de révision humaine dans la section Augmented AI de la console SageMaker, procédez comme suit : Créer un flux de vérification humaine (console).

  2. Lorsque vous sélectionnez Worker types (Types de travail) dans la section Workers (Employés), sélectionnez Amazon Mechanical Turk.

  3. Sélectionnez le Price per task (Prix par tâche) à l'aide de la liste déroulante. Il s'agit de la somme d'argent qu'un employé reçoit pour accomplir une seule tâche.

  4. (Facultatif) Vous pouvez spécifier le Number of workers per dataset object (Nombre d'employés par objet jeu de données) sous Additional configuration (Configuration supplémentaire). Par exemple, si vous saisissez 3 dans ce champ, chaque objet de données sera labélisée par 3 employés.

  5. (Facultatif) Spécifiez le temps total dont disposent les employés pour effectuer une tâche à l'aide de Task timeout (Durée d'exécution de la tâche}.

  6. (Facultatif) Spécifiez la durée totale pendant laquelle une tâche reste disponible pour les employés dans Task expiration (Expiration de la tâche). C'est le temps dont disposent les employés pour reprendre une tâche avant qu'elle n'échoue.

  7. Une fois que vous avez créé votre flux de révision humaine, vous pouvez l'utiliser pour configurer une boucle humaine en fournissant son Amazon Resource Name (ARN) dans le paramètre FlowDefinitionArn. Vous configurez une boucle humaine à l'aide de l'une des opérations API d'un type de tâche intégré, ou de l'opération StartHumanLoop de l'API d'exécution Amazon A2I. Pour en savoir plus, veuillez consulter la rubrique Créer et démarrer une boucle humaine.

    Lorsque vous configurez votre boucle humaine, vous devez spécifier que vos données d'entrée sont exemptes de données d'identification personnelle (PII) en utilisant le classificateur de contenu FreeOfPersonallyIdentifiableInformation dans DataAttributes. Si vous utilisez Mechanical Turk et que vous ne spécifiez pas que vos données d'entrée sont exemptes de PII à l'aide de l'indicateur , votre travail de labélisation échouera.

    Utilisez l'indicateur FreeOfAdultContent pour déclarer que vos données d'entrée ne contiennent pas de contenu pour adultes. SageMaker peut restreindre les employés de Mechanical Turk habilités à afficher votre tâche si elle contient du contenu pour adultes.

Pour utiliser Mechanical Turk lorsque vous créez un flux de travail de vérification humaine (API) :

  1. Utilisez les éléments suivants pour créer un flux de travail de révision humaine à l'aide de l'opération CreateFlowDefinition : Créer un flux de vérification humaine (API).

  2. Utilisez le format suivant pour le WorkteamArn. Remplacez region par la région AWS que vous utilisez pour créer la tâche de labélisation ou les boucles humaines.

    arn:aws:sagemaker:region:394669845002:workteam/public-crowd/default

  3. Utiliser TaskTimeLimitInSeconds pour spécifier le temps total de travail dont disposent les employés pour effectuer une tâche.

  4. Utiliser TaskAvailabilityLifetimeInSeconds pour spécifier la durée totale pendant laquelle une tâche reste disponible pour les employés. C'est le temps dont disposent les employés pour reprendre une tâche avant qu'elle n'échoue.

  5. Utiliser TaskCount pour spécifier le nombre d'employés par objet du jeu de données. Par exemple, si vous spécifiez 3 pour ce paramètre, chaque objet de données sera labélisée par 3 employés.

  6. Utiliser PublicWorkforceTaskPrice pour définir le prix par tâche. Il s'agit de la somme d'argent qu'un employé reçoit pour accomplir une seule tâche.

  7. Une fois que vous avez créé votre flux de révision humaine, vous pouvez l'utiliser pour configurer une boucle humaine en fournissant son Amazon Resource Name (ARN) dans le paramètre FlowDefinitionArn. Vous configurez une boucle humaine à l'aide de l'une des opérations API d'un type de tâche intégré, ou de l'opération StartHumanLoop de l'API d'exécution Amazon A2I. Pour en savoir plus, veuillez consulter la rubrique Créer et démarrer une boucle humaine.

    Lorsque vous configurez votre boucle humaine, vous devez spécifier que vos données d'entrée sont exemptes de données d'identification personnelle (PII) en utilisant le classificateur de contenu FreeOfPersonallyIdentifiableInformation dans DataAttributes. Si vous utilisez Mechanical Turk et que vous ne spécifiez pas que vos données d'entrée sont exemptes de PII, vos tâches de révision humaine échoueront.

    Utilisez l'indicateur FreeOfAdultContent pour déclarer que vos données d'entrée ne contiennent pas de contenu pour adultes. SageMaker peut restreindre les employés de Mechanical Turk habilités à afficher votre tâche si elle contient du contenu pour adultes.

Vous pouvez voir des exemples d'utilisation de cette API dans les blocs-notes suivants, trouvés sur GitHub :Exemples de blocs-notes Jupyter Amazon A2I.

Quand Mechanical Turk n'est-il pas pris en charge ?

Cette main-d'œuvre n'est pas prise en charge dans les scénarios suivants. Dans chaque scénario, vous devez utiliser une main-d'œuvreprivé ou fournisseur.

  • Cette main-d'œuvre n'est pas prise en charge pour les tâches de labélisation de trame vidéo Ground Truth et les tâches de labélisation de nuage de points 3D.

  • Vous ne pouvez pas utiliser cette main-d'œuvre si vos données d'entrée contiennent des données d'identification personnelle (PII).

  • Mechanical Turk n'est pas disponible dans certaines régions AWS spéciales. Le cas échéant, consultez la documentation de votre région spéciale pour plus d'informations.