Configuration automatique des données - Amazon SageMaker

Configuration automatique des données

Vous pouvez utiliser la configuration automatisée des données pour créer des fichiers manifestes pour vos tâches d'étiquetage dans la console Ground Truth à l'aide d'images, de vidéos, de trames vidéo, de fichiers texte (.txt) et de fichiers CSV (.csv) stockés dans Amazon S3. Lorsque vous utilisez la configuration automatisée des données, vous spécifiez un emplacement Amazon S3 où vos données source sont stockées ainsi que leur type de données, et Ground Truth recherche les fichiers correspondant à ce type dans l'emplacement que vous spécifiez.

Note

Ground Truth n'utilise pas une clé AWS KMS pour accéder à vos données source ou écrire le fichier manifeste source dans l'emplacement Amazon S3 que vous spécifiez. L'utilisateur ou le rôle IAM qui crée la tâche d'étiquetage doit disposer des autorisations nécessaires pour accéder à vos objets de données source dans Amazon S3.

Avant d'utiliser la procédure suivante, assurez-vous que vos images ou fichiers d'entrée sont au format approprié :

  • Fichiers image – Les fichiers image doivent respecter les limites de taille et de résolution indiquées dans les tableaux que vous pouvez trouver dans Quota de taille des fichiers d'entrée.

  • Fichiers texte – Les données texte peuvent être stockées dans un ou plusieurs fichiers .txt. Chaque élément à étiqueter doit être séparé par un saut de ligne standard.

  • Fichiers CSV – Les données texte peuvent être stockées dans un ou plusieurs fichiers .csv. Chaque élément à étiqueter doit se trouver sur une ligne distincte.

  • Vidéos – Le format des fichiers vidéo peut être l'un des suivants : .mp4, .ogg et .webm. Si vous souhaitez extraire des trames vidéo de vos fichiers vidéo pour la détection d'objets ou le suivi d'objets, veuillez consulter Fournir des fichiers vidéo.

  • Trames vidéo – Les trames vidéo sont des images extraites d'une vidéo. Toutes les images extraites d'une seule vidéo sont appelées séquence de trames vidéo. Chaque séquence de trames vidéo doit avoir des clés de préfixe uniques dans Amazon S3. Veuillez consulter Fournir des trames vidéo. Pour ce type de données, veuillez consulter Configuration automatisée des données source de trame vidéo

Important

Pour les tâches d'étiquetage de détection et de suivi d'objets dans les trames vidéo, veuillez consulter Configuration automatisée des données source de trame vidéo pour savoir comment utiliser la configuration automatisée des données.

Utilisez ces instructions pour configurer automatiquement votre connexion de jeu de données source avec Ground Truth.

Connectez automatiquement vos données dans Amazon S3 avec Ground Truth

  1. Accédez à la page Création d'une tâche d'étiquetage dans la console Amazon SageMaker à l'adresse https://console.aws.amazon.com/sagemaker/.

    Ce lien vous situe dans la région AWS de Virginie du Nord (us-east-1). Si vos données d'entrée se trouvent dans un compartiment Amazon S3 d'une autre région, spécifiez cette région. Pour modifier votre région AWS, dans la barre de navigation, choisissez le nom de la région actuellement affichée.

  2. Sélectionnez Create labeling job (Créer une tâche d'étiquetage).

  3. Saisissez un Job name (Nom de la tâche).

  4. Dans la section Input data setup (Configuration des données source), sélectionnez Automated data setup (Configuration automatisée des données).

  5. Saisissez un URI Amazon S3 pour S3 location for input datasets (Emplacement S3 pour les jeux de données source).

  6. Spécifier votre S3 location for output datasets (Emplacement S3 pour les jeux de données de sortie). C'est l'endroit où vos données seront stockées.

  7. Choisissez votre Data type (Type de données) en utilisant la liste déroulante.

  8. Utilisez le menu déroulant sous IAM Role (Rôle IAM) pour sélectionner un rôle d'exécution. Si vous sélectionnez Create a role (Créer un rôle), spécifiez les compartiments Amazon S3 auxquels vous souhaitez accorder l'autorisation d'accès à ce rôle. Ce rôle doit avoir l'autorisation d'accéder aux compartiments S3 que vous avez spécifiés aux étapes 5 et 6.

  9. Sélectionnez Complete data setup (Terminer la configuration des données).

Cela crée un manifeste source dans l'emplacement Amazon S3 pour les jeux de données source que vous avez spécifiés à l'étape 5. Si vous créez une tâche d'étiquetage à l'aide de l'API SageMaker, AWS CLI, ou un kit SDK AWS, utilisez l'URI Amazon S3 pour ce fichier manifeste source comme valeur pour le paramètre ManifestS3Uri.

Le GIF suivant montre comment utiliser la configuration automatisée des données pour les données d'image. Cet exemple va créer un fichier dataset-YYMMDDTHHMMSS.manifest dans le compartiment Amazon S3 example-groundtruth-imagesYYMMDDTHHmmSS indique l'année (YY), le mois (MM), le jour (DD) et le temps en heures (HH), minutes (mm) et secondes (ss), de la création du fichier manifeste source.