本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
配置数据集
要将带标签的训练或测试数据添加到飞轮中,请使用 Amazon Comprehend 控制台或 API 创建数据集。
您可以将每个数据集配置为训练数据或测试数据。您可以将数据集与特定的飞轮和自定义模型相关联。创建数据集时,Amazon Comprehend 会将数据上传到飞轮的数据湖。有关训练数据文件格式的详细信息,请参阅 准备分类器训练数据 或 准备实体识别器训练数据。
当您删除飞轮时,Amazon Comprehend 会删除数据集。上传的数据在数据湖中仍然可用。
创建数据集(控制台)
创建数据集
-
登录 AWS Management Console 并打开 Amazon Comprehend 控制台
。 -
从左侧菜单中选择飞轮,然后选择要在其中添加数据的飞轮。
-
选择数据集选项卡。
-
在训练数据集或测试数据集表中,选择创建数据集。
-
在数据集详细信息下,输入数据集的名称和可选描述。
-
在数据规范下,选择数据格式和数据集类型配置字段。
-
(可选)在输入格式下,选择输入文档的格式。
-
在 S3 上的注释位置下,输入注释文件的 Amazon S3 位置。
-
在 S3 上的训练数据位置下,输入文档文件的 Amazon S3 位置。
-
选择创建。
创建数据集 (API)
您可以使用该CreateDataset操作来创建数据集。
aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }
inputConfig.json
文件包含以下代码。
{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }
要在数据集中添加或移除标签,请使用TagResource和UntagResource操作。
描述数据集
使用 Amazon Compreh DescribeDatasetend 操作检索有关飞轮的配置信息。
aws comprehend describe-dataset \ --dataset-arn "datasetARN"
响应包含以下内容。
{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:
aws-region
:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }