Configuración de los conjuntos de datos - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de los conjuntos de datos

Para añadir datos de prueba o de entrenamiento etiquetados a un volante, utilice la consola o la API de Amazon Comprehend para crear un conjunto de datos.

Cada conjunto de datos se configura como datos de entrenamiento o datos de prueba. Asocie el conjunto de datos a un volante de inercia y a un modelo personalizado específicos. Al crear un conjunto de datos, Amazon Comprehend carga los datos en el lago de datos del volante. Para obtener más información sobre los formatos de archivo de los datos de entrenamiento, consulte Preparación de los datos de entrenamiento del clasificador o Preparación de los datos de entrenamiento del reconocedor de entidades.

Al eliminar el volante, Amazon Comprehend elimina los conjuntos de datos. Los datos cargados permanecerán disponibles en el lago de datos.

Creación de un conjunto de datos (consola)

Creación de un conjunto de datos
  1. Inicie sesión en la AWS Management Console y abra la consola de Amazon Comprehend.

  2. En el menú de la izquierda, seleccione Volantes de inercia y elija el volante al que quiera añadir los datos.

  3. Seleccione la pestaña Datasets (Conjuntos de datos).

  4. En la tabla Conjuntos de datos de entrenamiento o Conjuntos de datos de prueba, seleccione Crear conjunto de datos.

  5. En Detalles del conjunto de datos, introduzca un nombre para el conjunto de datos y una descripción opcional.

  6. En Especificaciones de datos, elija los campos de configuración de Formato de datos y Tipo de conjunto de datos.

  7. (Opcional) En Formato de entrada, elija el formato de los documentos de entrada.

  8. En Ubicación de anotaciones en S3, introduzca la ubicación en Amazon S3 del archivo de anotaciones.

  9. En Ubicación de los datos de entrenamiento en S3, introduzca la ubicación en Amazon S3 de los archivos de documentos.

  10. Seleccione Crear.

Creación de un conjunto de datos (API)

Puede usar la CreateDatasetoperación para crear un conjunto de datos.

aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }

El archivo inputConfig.json contiene la salida siguiente.

{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }

Para añadir o eliminar etiquetas en el conjunto de datos, utilice las UntagResourceoperaciones TagResourcey.

Describir un conjunto de datos.

Utilice la DescribeDatasetoperación Amazon Comprehend para recuperar la información configurada sobre un volante.

aws comprehend describe-dataset \ --dataset-arn "datasetARN"

La respuesta contiene el siguiente contenido.

{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:aws-region:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }