配置数据集 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

配置数据集

要将带标签的训练或测试数据添加到飞轮中,请使用 Amazon Comprehend 控制台或 API 创建数据集。

您可以将每个数据集配置为训练数据或测试数据。您可以将数据集与特定的飞轮和自定义模型相关联。创建数据集时,Amazon Comprehend 会将数据上传到飞轮的数据湖。有关训练数据文件格式的详细信息,请参阅 准备分类器训练数据准备实体识别器训练数据

当您删除飞轮时,Amazon Comprehend 会删除数据集。上传的数据在数据湖中仍然可用。

创建数据集(控制台)

创建数据集
  1. 登录 AWS Management Console 并打开 Amazon Comprehend 控制台

  2. 从左侧菜单中选择飞轮,然后选择要在其中添加数据的飞轮。

  3. 选择数据集选项卡。

  4. 训练数据集测试数据集表中,选择创建数据集

  5. 数据集详细信息下,输入数据集的名称和可选描述。

  6. 数据规范下,选择数据格式数据集类型配置字段。

  7. (可选)在输入格式下,选择输入文档的格式。

  8. S3 上的注释位置下,输入注释文件的 Amazon S3 位置。

  9. S3 上的训练数据位置下,输入文档文件的 Amazon S3 位置。

  10. 选择创建

创建数据集 (API)

您可以使用该CreateDataset操作来创建数据集。

aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }

inputConfig.json 文件包含以下代码。

{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }

要在数据集中添加或移除标签,请使用TagResourceUntagResource操作。

描述数据集

使用 Amazon Compreh DescribeDatasetend 操作检索有关飞轮的配置信息。

aws comprehend describe-dataset \ --dataset-arn "datasetARN"

响应包含以下内容。

{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:aws-region:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }