Utilisation d'Amazon SageMaker Ground Truth pour étiqueter les données - Amazon SageMaker

Utilisation d'Amazon SageMaker Ground Truth pour étiqueter les données

Pour entraîner un modèle de machine learning, vous avez besoin d'un grand jeu de données étiqueté de haute qualité. Ground Truth vous aide à créer des jeux de données d'entraînement de haute qualité pour vos modèles de machine learning. Avec Ground Truth, vous pouvez utiliser des employés Amazon Mechanical Turk, d'un fournisseur de votre choix ou d'une main-d'œuvre interne privée, ainsi que de le machine learning pour vous permettre de créer un jeu de données étiquetées. Vous pouvez utiliser le jeu de données étiquetées généré par Ground Truth pour entraîner vos propres modèles. Vous pouvez également utiliser la sortie comme jeu de données d'entraînement pour un modèle Amazon SageMaker.

En fonction de votre application ML, vous pouvez choisir l'un des types de tâches intégrées de Ground Truth pour que les employés génèrent des types spécifiques d'étiquettes pour vos données. Vous pouvez également créer un flux de travail d'étiquetage personnalisé pour fournir votre propre interface utilisateur et vos propres outils aux collaborateurs qui étiquettent vos données. Pour en savoir plus sur les types de tâches intégrées de Ground Truth, veuillez consulter Types de tâche intégrés. Pour savoir comment créer un workflow d'étiquetage personnalisé, reportez-vous à la section Création de flux d'étiquetage personnalisés.

Pour automatiser l'étiquetage de votre jeu de données d'entraînement, vous pouvez, si vous le souhaitez, utiliser l'étiquetage automatisé des données. Ce processus Ground Truth utilise le machine learning pour déterminer les données qui doivent être étiquetées par l'homme. L'étiquetage automatisé des données peut réduire la durée et les efforts manuels requis pour l'étiquetage. Pour de plus amples informations, veuillez consulter . Automatiser l'étiquetage des données. Pour créer un flux d'étiquetage personnalisé, veuillez consulter Création de flux d'étiquetage personnalisés.

Utilisez des outils pré-intégrés ou personnalisés pour attribuer les tâches d'étiquetage de votre ensemble de données d'entraînement. Un modèle d'interface utilisateur d'étiquetage est une page Web que Ground Truth utilise pour présenter les tâches et les instructions à vos employés. La console SageMaker fournit des modèles intégrés pour l'étiquetage des données. Vous pouvez utiliser ces modèles pour commencer, ou vous pouvez créer vos propres tâches et instructions en utilisant nos composants HTML 2.0. Pour de plus amples informations, veuillez consulter . Création de flux d'étiquetage personnalisés.

Utilisez la main-d'œuvre de votre choix pour étiqueter votre ensemble de données. Vous avez le choix entre :

  • La main-d'œuvre Amazon Mechanical Turk, qui compte plus de 500 000 prestataires indépendants dans le monde entier.

  • une main-d'œuvre privée que vous constituez parmi vos employés ou sous-traitants pour le traitement des données de votre organisation ;

  • un fournisseur de l'AWS Marketplace spécialisé dans les services d'étiquetage de données.

Pour de plus amples informations, veuillez consulter . Création et gestion de mains-d'œuvres.

Vous stockez vos jeux de données dans des compartiments Amazon S3. Les compartiments contiennent trois éléments : les données à étiqueter, un fichier manifeste source que Ground Truth utilise pour lire les fichiers de données et un fichier manifeste de sortie. Le fichier de sortie comprend les résultats de la tâche d'étiquetage. Pour de plus amples informations, veuillez consulter . Utilisation des données d'entrée et de sortie.

Les événements de vos tâches d'étiquetage apparaissent dans Amazon CloudWatch sous le groupe /aws/sagemaker/LabelingJobs. CloudWatch utilise le nom de la tâche d'étiquetage comme nom pour le flux de journal.

Êtes-vous un nouvel utilisateur de Ground Truth ?

Si vous utilisez Ground Truth pour la première fois, nous vous recommandons de procéder comme indiqué ci-dessous :

  1. Lisez le document Commencer — Cette section vous guide dans la configuration de votre première tâche d'étiquetage Ground Truth.

  2. Explorez d'autres sujets — En fonction de vos besoins, procédez de la façon suivante :

    • Explorez les types de tâches intégrées — Utilisez des types de tâches intégrés pour rationaliser le processus de création d'une tâche d'étiquetage. Pour en savoir plus sur les types de tâches intégrées de Ground Truth, veuillez consulter Types de tâche intégrés.

    • Gérez votre main-d'œuvre d'étiquetage — Constituez des équipes de travail et gérez votre main-d'œuvre existante. Pour de plus amples informations, veuillez consulter . Création et gestion de mains-d'œuvres.

    • Découvrez les tâches d'étiquetage en streaming : créez une tâche d'étiquetage en streaming et envoyez de nouveaux objets de jeu de données aux employés en temps réel à l'aide d'une tâche d'étiquetage à exécution perpétuelle. Les employés reçoivent continuellement de nouveaux objets de données à étiqueter tant que la tâche d'étiquetage est active et que de nouveaux objets lui sont envoyés. Pour en savoir plus, consultez Tâches d'étiquetage en streaming Ground Truth.

  3. Consultez le document Reference — Cette section décrit les opérations permettant d'automatiser les opérations de Ground Truth.