Préparation d'images pour un jeu de données Création du jeu de données

Création de votre jeu de données

Un jeu de données contient les images et les étiquettes attribuées que vous utilisez pour entraîner et tester un modèle. Vous créez l'ensemble de données pour votre projet avec la console Amazon Lookout for Vision ou avec CreateDatasetl'opération. Les images du jeu de données doivent être étiquetées en fonction du type de modèle que vous souhaitez créer (classification d'images ou segmentation d'images).

Rubriques

Préparation d'images pour un jeu de données

Vous avez besoin d'une collection d'images pour créer un jeu de données. Vos images doivent être des fichiers au format PNG ou JPEG. Le nombre et le type d'images dont vous avez besoin varient selon que votre projet comporte un seul jeu de données ou des ensembles de données d'entraînement et de test distincts.

Projet de jeu de données unique

Pour créer un modèle de classification d'images, vous devez disposer des éléments suivants pour commencer l'entraînement :

Au moins 20 images d'objets normaux.
Au moins 10 images d'objets anormaux.

Pour créer un modèle de segmentation d'image, vous devez disposer des éléments suivants pour commencer l'entraînement :

Au moins 20 images de chaque type d'anomalie.
Chaque image anormale (image avec des types d'anomalies présents) ne doit comporter qu'un seul type d'anomalie.
Au moins 20 images d'objets normaux.

Projet de jeu de données de formation et de test distinct

Pour créer un modèle de classification d'images, vous avez besoin des éléments suivants :

Au moins 10 images d'objets normaux dans le jeu de données d'apprentissage.
Au moins 10 images d'objets normaux dans l'ensemble de données de test.
Au moins 10 images d'objets anormaux dans l'ensemble de données de test.

Pour créer un modèle de segmentation d'image, vous avez besoin des éléments suivants :

Chaque jeu de données nécessite au moins 10 images de chaque type d'anomalie.
Chaque image anormale (image avec des types d'anomalies présents) ne doit contenir qu'un seul type d'anomalie.
Chaque jeu de données doit contenir au moins 10 images d'objets normaux.

Pour créer un modèle de meilleure qualité, utilisez un nombre d'images supérieur au minimum. Si vous créez un modèle de segmentation, nous vous recommandons d'inclure des images présentant plusieurs types d'anomalies, mais celles-ci ne sont pas prises en compte dans le minimum dont Lookout for Vision a besoin pour commencer l'entraînement.

Vos images doivent représenter un seul type d'objet. Vous devez également disposer de conditions de capture d'image cohérentes, telles que le positionnement de la caméra, l'éclairage et la pose de l'objet.

Toutes les images des ensembles de données d'entraînement et de test doivent avoir les mêmes dimensions. Par la suite, les images que vous analyserez avec votre modèle entraîné doivent avoir les mêmes dimensions que les images des jeux de données d'apprentissage et de test. Pour plus d’informations, consultez Détecter des anomalies dans une image.

Toutes les images d'entraînement et de test doivent être des images uniques, de préférence d'objets uniques. Les images normales doivent capturer les variations normales de l'objet analysé. Les images anormales doivent capturer un échantillon diversifié d'anomalies.

Amazon Lookout for Vision fournit des exemples d'images que vous pouvez utiliser. Pour plus d’informations, consultez ensemble de données de classification d'images.

Pour les limites d'image, voirQuotas dans Amazon Lookout for Vision.

Création du jeu de données

Lorsque vous créez le jeu de données pour votre projet, vous choisissez la configuration initiale du jeu de données de votre projet. Vous pouvez également choisir l'endroit d'où Lookout for Vision importe les images.

Choix d'une configuration de jeu de données pour votre projet

Lorsque vous créez le premier jeu de données de votre projet, vous choisissez l'une des configurations de jeu de données suivantes :

Jeu de données unique : un projet de jeu de données unique utilise un seul jeu de données pour entraîner et tester votre modèle. L'utilisation d'un jeu de données unique simplifie la formation en laissant Amazon Lookout for Vision choisir les images de formation et de test. Pendant la formation, Amazon Lookout for Vision divise en interne le jeu de données en un ensemble de données de formation et un ensemble de données de test. Vous n'avez pas accès aux ensembles de données fractionnés. Nous recommandons d'utiliser un seul projet de jeu de données pour la plupart des scénarios.
Ensembles de données d'entraînement et de test distincts : si vous souhaitez mieux contrôler l'entraînement, les tests et le réglage des performances, vous pouvez configurer votre projet pour disposer d'ensembles de données d'entraînement et de test distincts. Utilisez un ensemble de données de test distinct si vous souhaitez contrôler les images utilisées pour les tests ou si vous disposez déjà d'un ensemble d'images de référence que vous souhaitez utiliser.

Vous pouvez ajouter un ensemble de données de test à un projet de jeu de données unique existant. L'ensemble de données unique devient alors le jeu de données d'entraînement. Si vous supprimez le jeu de données de test d'un projet comportant des ensembles de données d'entraînement et de test distincts, le projet devient un projet de jeu de données unique. Pour plus d’informations, consultez Supprimer un jeu de données.

Importation d'images

Lorsque vous créez un jeu de données, vous choisissez d'où importer les images. Selon la façon dont vous importez les images, celles-ci sont peut-être déjà étiquetées. Si les images ne sont pas étiquetées après la création du jeu de données, consultezÉtiquetage des images.

Vous créez un jeu de données et importez ses images de l'une des manières suivantes :

Importez des images depuis votre ordinateur local. Les images ne sont pas étiquetées. Vous pouvez ajouter ou étiqueter à l'aide de la console Lookout for Vision.
Importez des images depuis un compartiment S3. Amazon Lookout for Vision peut classer les images en utilisant les noms de dossiers pour étiqueter les images. À utiliser normal pour des images normales. À utiliser anomaly pour les images anormales. Vous ne pouvez pas attribuer automatiquement des étiquettes de segmentation.
Importez un fichier manifeste Amazon SageMaker Ground Truth contenant des images étiquetées. Vous pouvez créer et importer votre propre fichier manifeste. Si vous avez de nombreuses images, pensez à utiliser le service d'étiquetage SageMaker Ground Truth. Vous importez ensuite le fichier manifeste de sortie depuis le job Amazon SageMaker Ground Truth. Si nécessaire, vous pouvez utiliser la console Lookout for Vision pour ajouter ou modifier des libellés.

Si vous utilisez le AWS SDK, vous créez un ensemble de données avec un fichier manifeste Amazon SageMaker Ground Truth. Pour plus d’informations, consultez Création d'un ensemble de données à l'aide d'un fichier manifeste Amazon SageMaker Ground Truth.

Si, après avoir créé votre jeu de données, vos images sont étiquetées, vous pouvez entraîner le modèle. Si les images ne sont pas étiquetées, ajoutez les étiquettes en fonction du type de modèle que vous souhaitez créer. Pour plus d’informations, consultez Étiquetage des images.

Vous pouvez ajouter d'autres images à un jeu de données existant. Pour plus d’informations, consultez Ajouter des images à votre jeu de données.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Création de votre projet

Ordinateur local