Consolidation des notes

Une annotation est le résultat d'une tâche d'étiquetage d'un seul travailleur. La consolidation d'annotation combine les annotations de deux ou plusieurs applications de travail en une seule étiquette pour vos objets de données. Une étiquette, qui est attribuée à chaque objet du jeu de données, est une estimation probabiliste de ce que doit être l'étiquette vraie. Chaque objet de l'ensemble de données dispose généralement de plusieurs annotations, mais uniquement d'une seule étiquette ou d'un seul ensemble d'étiquettes.

Vous déterminez le nombre d'employés qui devront annoter chaque objet de votre jeu de données. L'utilisation de plus d'employés peut augmenter la précision de vos étiquettes, mais aussi augmenter le coût de l'étiquetage. Pour en savoir plus sur les tarifs de Ground Truth, consultez les tarifs d'Amazon SageMaker Ground Truth.

Si vous utilisez la SageMaker console Amazon pour créer une tâche d'étiquetage, voici les valeurs par défaut relatives au nombre de travailleurs autorisés à annoter des objets :

Classification de texte — 3 employés
Classification d'image — 3 employés
Zones de délimitation — 5 employés
Segmentation sémantique — 3 employés
Reconnaissance des entités nommées — 3 employés

Lorsque vous utilisez l'opération CreateLabelingJob, vous définissez le nombre de collaborateurs qui devront annoter chaque objet de données avec le paramètre NumberOfHumanWorkersPerDataObject. Vous pouvez remplacer le nombre d'applications de travail par défaut qui étiquettent un objet de données grâce à la console ou à l'opération CreateLabelingJob.

Ground Truth propose une fonction de consolidation d'annotation pour chacune de ses tâches d'étiquetage prédéfinies : cadre de délimitation, classification d'image, reconnaissance d'entité de nom, segmentation sémantique et classification de texte. Voici les fonctions :

La consolidation d'annotation multi-classe pour la classification d'image et de texte utilise une variante de l'approche espérance-maximisation pour les annotations. Elle estime les paramètres pour chaque application de travail et utilise l'inférence bayésienne pour estimer la véritable classe, en fonction des annotations de classe des applications de travail individuelles.
L'annotation du cadre de délimitation consolide les cadres de délimitation à partir de plusieurs programmes exécutants. Cette fonction permet de trouver les cadres les plus proches à partir de différentes applications de travail basées sur l'index Jaccard, ou sur l'intersection via l'union, des cadres et calcule leur moyenne.
La consolidation de l'annotation de segmentation sémantique traite chaque pixel dans une seule image comme classification multiclasse. Cette fonction traite les annotations de pixel à partir de programmes exécutants en tant que « votes », avec plus d'informations à partir de pixels environnants intégrés en appliquant une fonction de lissage à l'image.
La reconnaissance des entités nommées regroupe les sélections de texte par similarité Jaccard et calcule les limites de la sélection en fonction du mode, ou de la médiane si le mode n'est pas clair. L'étiquette est résolue en l'étiquette d'entité la plus attribuée dans le cluster, ce qui rompt les liens par sélection aléatoire.

Vous pouvez utiliser d'autres algorithmes pour consolider les annotations. Pour plus d’informations, veuillez consulter Création d'une fonction de consolidation des annotations.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Contrôlez le flux d'objets de données envoyés aux travailleurs

Création d'une fonction de consolidation des annotations