設定資料集 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設定資料集

若要將標籤化的訓練或測試資料新增至飛輪,請使用 Amazon Comprehend 主控台或 API 建立資料集。

您可以將每個資料集設定為訓練資料或測試資料。您可以將資料集與特定飛輪和自訂模型相關聯。當您建立資料集時,Amazon Comprehend 會將資料上傳到飛輪的資料湖。如需有關訓練資料檔案格式的詳細資訊,請參閱準備分類器訓練資料準備實體辨識器訓練資料

當您刪除飛輪時,Amazon Comprehend 會刪除這些資料集。上傳的資料仍然可以在資料湖中使用。

建立資料集 (主控台)

建立資料集
  1. 登入AWS Management Console並開啟 Amazon Comprehend 主控台。

  2. 從左側功能表中選擇飛輪,然後選擇您要新增資料的飛輪。

  3. 選擇資料集索引標籤。

  4. 訓練資料集測試資料集表格中,選擇建立資料集

  5. 在 [資料集詳細資料] 底下,輸入資料集的名稱和選用說明。

  6. 在 [資料規格] 下,選擇 [資料格式] 和 [資料集類型] 設定欄位。

  7. (選擇性) 在「輸入格式」下,選擇輸入文件的格式。

  8. 在 S3 上的註釋位置下,輸入註釋檔案的 Amazon S3 位置。

  9. 在 S3 上的訓練資料位置下,輸入文件檔案的 Amazon S3 位置。

  10. 選擇建立

建立資料集 (API)

您可以使用此CreateDataset作業建立資料集。

aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }

inputConfig.json 檔案包含下列內容。

{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }

若要在資料集上新增或移除標籤,請使用TagResourceUntagResource作業。

描述資料集

使用 Amazon Comprehend DescribeDataset操作來擷取有關飛輪的已設定資訊。

aws comprehend describe-dataset \ --dataset-arn "datasetARN"

響應包含以下內容。

{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:aws-region:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }