Configurando conjuntos de dados - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configurando conjuntos de dados

Para adicionar dados de treinamento ou teste rotulados a um flywheel, use o console ou a API do Amazon Comprehend para criar um conjunto de dados.

Configure cada conjunto de dados como dados de treinamento ou dados de teste. Associe o conjunto de dados a um flywheel específico e a um modelo personalizado. Ao criar um conjunto de dados, o Amazon Comprehend carrega os dados para o data lake do flywheel. Para obter detalhes sobre formatos de arquivo para os dados de treinamento, consulte Preparar dados de treinamento do classificador ou Preparando dados de treinamento do reconhecedor de entidades.

Quando você exclui o flywheel, o Amazon Comprehend exclui os conjuntos de dados. Os dados enviados permanecem disponíveis no data lake.

Criando um conjunto de dados (console)

Criar um conjunto de dados
  1. Faça login no AWS Management Console e abra o console do Amazon Comprehend.

  2. No menu à esquerda, escolha Flywheels e escolha o flywheel em que você deseja adicionar os dados.

  3. Escolha a guia Conjuntos de dados.

  4. Na tabela Conjuntos de dados de treinamento ou Conjuntos de dados de teste, escolha Criar conjunto de dados.

  5. Em Detalhes do conjunto de dados, insira um nome para o conjunto de dados e uma descrição opcional.

  6. Em Especificações de dados, escolha os campos de configuração Formato de dados e Tipo de conjunto de dados.

  7. (Opcional) Em Formato de entrada, escolha o formato dos documentos de entrada.

  8. Em Local da anotação no S3, insira a localização do arquivo de anotações do Amazon S3.

  9. Em Local dos dados de treinamento no S3, insira a localização dos arquivos de documentos do Amazon S3.

  10. Escolha Criar.

Criando um conjunto de dados (API)

Você pode usar a CreateDatasetoperação para criar um conjunto de dados.

aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }

O arquivo inputConfig.json contém o conteúdo a seguir.

{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }

Para adicionar ou remover tags no conjunto de dados, use as UntagResourceoperações TagResourcee.

Descrever um conjunto de dados

Use a operação Amazon DescribeDatasetComprehend para recuperar informações configuradas sobre um volante.

aws comprehend describe-dataset \ --dataset-arn "datasetARN"

A resposta tem o conteúdo a seguir.

{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:aws-region:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }