Utilisez un fichier manifeste source - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisez un fichier manifeste source

Chaque ligne d'un fichier manifeste source est une entrée contenant un objet, ou une référence à un objet à étiqueter. Une entrée peut également contenir des étiquettes provenant de tâches précédentes et, pour certains types de tâches, des informations supplémentaires.

Les données source et le fichier manifeste doivent être stockés dans Amazon Simple Storage Service (Amazon S3). Chacun possède des exigences spécifiques en matière de stockage et d'accès, à savoir :

  • Le compartiment Amazon S3 qui contient les données d'entrée doit se trouver dans la même AWS région que celle dans laquelle vous exécutez Amazon SageMaker Ground Truth. Vous devez autoriser Amazon à SageMaker accéder aux données stockées dans le compartiment Amazon S3 afin qu'il puisse les lire. Pour en savoir plus sur les compartiments Amazon S3, veuillez consulter Utilisation des compartiments Amazon S3.

  • Le fichier manifeste doit se trouver dans la même AWS région que les fichiers de données, mais il n'est pas nécessaire qu'il se trouve au même endroit que les fichiers de données. Il peut être stocké dans n'importe quel compartiment Amazon S3 accessible au rôle AWS Identity and Access Management (IAM) que vous avez attribué à Ground Truth lorsque vous avez créé la tâche d'étiquetage.

Note

Les types de tâche de nuage de points 3D et de trame vidéo ont des exigences différentes en matière d'attributs et de manifeste source.

Pour les types de tâches de nuage de points 3D, reportez-vous à Création d'un fichier manifeste d'entrée pour une tâche d'étiquetage de nuage de points 3D.

Pour les types de tâches d'image vidéo, reportez-vous à Création d'un fichier manifeste source de trame vidéo.

Le manifeste est un fichier codé en UTF-8 dans lequel chaque ligne est un objet JSON complet et valide. Chaque ligne est délimitée par un saut de ligne standard, \n ou \r\n. Chaque ligne étant un objet JSON valide, elle ne peut pas comporter de caractères de saut de ligne sans échappement. Pour de plus amples informations sur le format de données, veuillez consulter Lignes JSON.

Chaque objet JSON du fichier manifeste ne peut pas comporter plus de 100 000 caractères. Aucun attribut unique dans un objet ne peut contenir plus de 20 000 caractères. Les noms d'attribut ne peuvent pas commencer par $ (signe dollar).

Chaque objet JSON du fichier manifeste doit contenir l'une des clés suivantes : source-ref ou source. La valeur des clés est interprétée comme suit :

  • source-ref – La source de l'objet est l'objet Amazon S3 spécifié dans la valeur. Utilisez cette valeur lorsque l'objet est un objet binaire, comme une image.

  • source – La source de l'objet est la valeur. Utilisez cette valeur lorsque l'objet est une valeur de texte.

Voici un exemple de fichier manifeste pour des fichiers stockés dans un compartiment Amazon S3 :

{"source-ref": "S3 bucket location 1"} {"source-ref": "S3 bucket location 2"} ... {"source-ref": "S3 bucket location n"}

Utilisez la clé source-ref pour les fichiers image pour les tâches d'étiquetage de classification vidéo de cadre de délimitation, classification des images (étiquette simple et multiple), segmentation sémantique et clips vidéo. Les tâches d'étiquetage de nuage de points 3D et de trame vidéo utilisent également la clé source-ref, mais ces tâches d'étiquetage nécessitent des informations supplémentaires dans le fichier manifeste source. Pour de plus amples informations, veuillez consulter Données d'entrée de nuage de points 3D et Données source de trame vidéo.

Voici un exemple de fichier manifeste avec les données d'entrée stockées dans le manifeste :

{"source": "Lorem ipsum dolor sit amet"} {"source": "consectetur adipiscing elit"} ... {"source": "mollit anim id est laborum"}

Utilisez la clé source pour les tâches d'étiquetage de la classification de texte à une ou plusieurs étiquettes et de reconnaissance des entités nommées.

Vous pouvez inclure d'autres paires clé-valeur dans le fichier manifeste. Ces paires sont transmises telles quelles au fichier de sortie. C'est utile si vous souhaitez transmettre des informations entre vos applications. Pour plus d’informations, consultez Données de sortie.