Configuration des ensembles de données - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration des ensembles de données

Pour ajouter des données d'entraînement ou de test étiquetées à un volant, utilisez la console ou l'API Amazon Comprehend pour créer un ensemble de données.

Vous configurez chaque ensemble de données en tant que données d'entraînement ou données de test. Vous associez le jeu de données à un volant spécifique et à un modèle personnalisé. Lorsque vous créez un ensemble de données, Amazon Comprehend télécharge les données dans le lac de données du volant. Pour plus de détails sur les formats de fichier pour les données d'entraînement, voir Préparation des données d'entraînement du classificateur ouPréparation des données de formation du système de reconnaissance d'entités.

Lorsque vous supprimez le volant, Amazon Comprehend supprime les ensembles de données. Les données téléchargées restent disponibles dans le lac de données.

Création d'un jeu de données (console)

Créer un jeu de données
  1. Connectez-vous à la console Amazon Comprehend AWS Management Console et ouvrez-la.

  2. Dans le menu de gauche, choisissez Volants et choisissez le volant dans lequel vous souhaitez ajouter les données.

  3. Choisissez l'onglet Ensembles de données.

  4. Dans le tableau Ensembles de données d'entraînement ou Ensembles de données de test, sélectionnez Créer un ensemble de données.

  5. Sous Détails du jeu de données, entrez un nom pour le jeu de données et une description facultative.

  6. Sous Spécifications des données, choisissez les champs de configuration du format des données et du type d'ensemble de données.

  7. (Facultatif) Sous Format d'entrée, choisissez le format des documents d'entrée.

  8. Sous Emplacement des annotations sur S3, entrez l'emplacement du fichier d'annotations sur Amazon S3.

  9. Sous Emplacement des données d'entraînement sur S3, entrez l'emplacement des fichiers de documents sur Amazon S3.

  10. Choisissez Créer.

Création d'un jeu de données (API)

Vous pouvez utiliser cette CreateDatasetopération pour créer un ensemble de données.

aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }

Le fichier inputConfig.json contient le contenu suivant.

{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }

Pour ajouter ou supprimer des balises dans le jeu de données, utilisez les UntagResourceopérations TagResourceet.

Décrire un ensemble de données

Utilisez l'DescribeDatasetopération Amazon Comprehend pour récupérer les informations configurées concernant un volant d'inertie.

aws comprehend describe-dataset \ --dataset-arn "datasetARN"

La réponse contient le contenu suivant.

{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:aws-region:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }