Préparation de vos jeux de données - Amazon Rekognition

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Préparation de vos jeux de données

Pour créer un adaptateur, vous devez fournir à Rekognition deux jeux de données, un jeu de données d’entraînement et un jeu de données de test. Chaque jeu de données est composé de deux éléments : des images et des annotations/étiquettes. Les sections suivantes expliquent à quoi servent les étiquettes et les images, et comment elles sont combinées pour créer des jeux de données.

Images

Vous devrez former un adaptateur sur des échantillons représentatifs de vos images. Lorsque vous sélectionnez des images pour l’entraînement, essayez d’inclure au moins quelques images illustrant la réponse attendue pour chacune des étiquettes que vous ciblez avec votre adaptateur.

Pour créer un jeu de données d’entraînement, vous devez fournir l’un des deux types d’image suivants :

  • Images avec des prédictions de faux positifs. Par exemple, lorsqu’un modèle de base prédit qu’une image contient de l’alcool, mais ce n’est pas le cas.

  • Images avec des prédictions de faux négatifs. Par exemple, lorsqu’un modèle de base prédit qu’une image ne contient pas d’alcool, mais c’est le cas.

Pour créer un jeu de données équilibré, il est recommandé de fournir l’un des deux types d’image suivants :

  • Images avec des prédictions de vrais positifs. Par exemple, lorsqu’un modèle de base prédit correctement qu’une image contient de l’alcool. Il est recommandé de fournir ces images si vous fournissez des images avec des faux positifs.

  • Images avec des prédictions de vrais négatifs. Par exemple, lorsqu’un modèle de base prédit correctement qu’une image ne contient pas d’alcool. Il est recommandé de fournir ces images si vous fournissez des images avec des faux négatifs.

Étiquettes

Une étiquette fait référence à l’un des éléments suivants : objets, événements, concepts ou activités. Pour la modération du contenu, une étiquette est une instance de contenu inapproprié, indésirable ou offensant.

Dans le contexte de la création d’un adaptateur en entraînant le modèle de base de Rekognition, lorsqu’une étiquette est attribuée à une image, on parle d’annotation. Lorsque vous entraînez un adaptateur avec la console de Rekognition, vous utilisez la console pour ajouter des annotations à vos images en choisissant une étiquette, puis en étiquetant les images correspondant à cette étiquette. Grâce à ce processus, le modèle apprend à identifier les éléments de vos images en fonction de l’étiquette attribuée. Ce processus de liaison permet au modèle de se concentrer sur le contenu le plus pertinent lors de la création d’un adaptateur, ce qui améliore la précision de l’analyse des images.

Vous pouvez également fournir un fichier manifeste contenant des informations sur les images et les annotations qui les accompagnent.

Jeux de données d’entraînement et de test

Le jeu de données d’entraînement est la base pour affiner le modèle et créer un adaptateur personnalisé. Vous devez fournir un jeu de données d’entraînement annoté pour que le modèle puisse en tirer des leçons. Le modèle tire les leçons de ce jeu de données pour améliorer ses performances sur le type d’images que vous fournissez.

Pour améliorer la précision, vous devez créer votre jeu de données d'entraînement à l'aide d' annotation/labeling images. Vous pouvez y parvenir de deux façons :

  • Attribution manuelle d’étiquettes : vous pouvez utiliser la console de Rekognition pour créer un jeu de données d’entraînement en téléchargeant les images que vous souhaitez que votre ensemble de données contienne, puis en attribuant manuellement des étiquettes à ces images.

  • Fichier manifeste : vous pouvez utiliser un fichier manifeste pour entraîner votre adaptateur. Le fichier manifeste contient des informations sur les annotations fondamentales pour vos images d’entraînement et de test, ainsi que sur l’emplacement de vos images d’entraînement. Vous pouvez fournir le fichier manifeste lorsque vous entraînez un adaptateur à l'aide de la APIs Rekognition ou de la console. AWS

Le jeu de données de test est utilisé pour évaluer les performances de l’adaptateur après l’entraînement. Pour garantir une évaluation fiable, le jeu de données de test est créé en utilisant une tranche du jeu de données d’apprentissage d’origine que le modèle n’a jamais vue auparavant. Ce processus garantit que les performances de l’adaptateur sont évaluées à l’aide de nouvelles données, créant ainsi des mesures et des métriques précises. Pour des améliorations de précision optimales, voir Bonnes pratiques relatives aux adaptateurs d’entraînement.