Fichiers manifestes d'entrée

Chaque ligne d'un fichier manifeste source est une entrée contenant un objet, ou une référence à un objet à étiqueter. Une entrée peut également contenir des étiquettes provenant de tâches précédentes et, pour certains types de tâches, des informations supplémentaires.

Les données source et le fichier manifeste doivent être stockés dans Amazon Simple Storage Service (Amazon S3). Chacun possède des exigences spécifiques en matière de stockage et d'accès, à savoir :

Le compartiment Amazon S3 qui contient les données d'entrée doit se trouver dans la même AWS région que celle dans laquelle vous exécutez Amazon SageMaker Ground Truth. Vous devez autoriser Amazon à SageMaker accéder aux données stockées dans le compartiment Amazon S3 afin qu'il puisse les lire. Pour en savoir plus sur les compartiments Amazon S3, veuillez consulter Utilisation des compartiments Amazon S3.
Le fichier manifeste doit se trouver dans la même AWS région que les fichiers de données, mais il n'est pas nécessaire qu'il se trouve au même endroit que les fichiers de données. Il peut être stocké dans n'importe quel compartiment Amazon S3 accessible au rôle AWS Identity and Access Management (IAM) que vous avez attribué à Ground Truth lorsque vous avez créé la tâche d'étiquetage.

Note

Les types de tâche de nuage de points 3D et de trame vidéo ont des exigences différentes en matière d'attributs et de manifeste source.

Pour les types de tâches de nuage de points 3D, reportez-vous à Fichiers manifestes d'entrée pour les tâches d'étiquetage de nuages de points 3D.

Pour les types de tâches d'image vidéo, reportez-vous à Création d'un fichier manifeste source de trame vidéo.

Le manifeste est un fichier codé en UTF -8 dans lequel chaque ligne est un JSON objet complet et valide. Chaque ligne est délimitée par un saut de ligne standard, \n ou \r\n. Comme chaque ligne doit être un JSON objet valide, vous ne pouvez pas avoir de caractères de saut de ligne non échappés. Pour plus d'informations sur le format des données, consultez la section JSONLignes.

Chaque JSON objet du fichier manifeste ne peut pas comporter plus de 100 000 caractères. Aucun attribut unique dans un objet ne peut contenir plus de 20 000 caractères. Les noms d'attribut ne peuvent pas commencer par $ (signe dollar).

Chaque JSON objet du fichier manifeste doit contenir l'une des clés suivantes : source-ref ousource. La valeur des clés est interprétée comme suit :

source-ref – La source de l'objet est l'objet Amazon S3 spécifié dans la valeur. Utilisez cette valeur lorsque l'objet est un objet binaire, comme une image.
source – La source de l'objet est la valeur. Utilisez cette valeur lorsque l'objet est une valeur de texte.

Voici un exemple de fichier manifeste pour des fichiers stockés dans un compartiment Amazon S3 :


{"source-ref": "S3 bucket location 1"}
{"source-ref": "S3 bucket location 2"}
   ...
{"source-ref": "S3 bucket location n"}

Utilisez la clé source-ref pour les fichiers image pour les tâches d'étiquetage de classification vidéo de cadre de délimitation, classification des images (étiquette simple et multiple), segmentation sémantique et clips vidéo. Les tâches d'étiquetage de nuage de points 3D et de trame vidéo utilisent également la clé source-ref, mais ces tâches d'étiquetage nécessitent des informations supplémentaires dans le fichier manifeste source. Pour de plus amples informations, veuillez consulter Données d'entrée de nuage de points 3D et Données source de trame vidéo.

Voici un exemple de fichier manifeste avec les données d'entrée stockées dans le manifeste :


{"source": "Lorem ipsum dolor sit amet"}
{"source": "consectetur adipiscing elit"}
   ...
{"source": "mollit anim id est laborum"}

Utilisez la clé source pour les tâches d'étiquetage de la classification de texte à une ou plusieurs étiquettes et de reconnaissance des entités nommées.

Vous pouvez inclure d'autres paires clé-valeur dans le fichier manifeste. Ces paires sont transmises telles quelles au fichier de sortie. C'est utile si vous souhaitez transmettre des informations entre vos applications. Pour de plus amples informations, veuillez consulter Étiquetage des données de sortie des tâches.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Données d'entrée

Automatisez la configuration des données pour les tâches d'étiquetage