本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
設定資料集
若要將標籤化的訓練或測試資料新增至飛輪,請使用 Amazon Comprehend 主控台或 API 建立資料集。
您可以將每個資料集設定為訓練資料或測試資料。您可以將資料集與特定飛輪和自訂模型相關聯。當您建立資料集時,Amazon Comprehend 會將資料上傳到飛輪的資料湖。如需有關訓練資料檔案格式的詳細資訊,請參閱準備分類器訓練資料或準備實體辨識器訓練資料。
當您刪除飛輪時,Amazon Comprehend 會刪除這些資料集。上傳的資料仍然可以在資料湖中使用。
建立資料集 (主控台)
建立資料集
-
登入AWS Management Console並開啟 Amazon Comprehend
主控台。 -
從左側功能表中選擇飛輪,然後選擇您要新增資料的飛輪。
-
選擇資料集索引標籤。
-
在訓練資料集或測試資料集表格中,選擇建立資料集。
-
在 [資料集詳細資料] 底下,輸入資料集的名稱和選用說明。
-
在 [資料規格] 下,選擇 [資料格式] 和 [資料集類型] 設定欄位。
-
(選擇性) 在「輸入格式」下,選擇輸入文件的格式。
-
在 S3 上的註釋位置下,輸入註釋檔案的 Amazon S3 位置。
-
在 S3 上的訓練資料位置下,輸入文件檔案的 Amazon S3 位置。
-
選擇建立。
建立資料集 (API)
您可以使用此CreateDataset作業建立資料集。
aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }
inputConfig.json
檔案包含下列內容。
{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }
若要在資料集上新增或移除標籤,請使用TagResource和UntagResource作業。
描述資料集
使用 Amazon Comprehend DescribeDataset操作來擷取有關飛輪的已設定資訊。
aws comprehend describe-dataset \ --dataset-arn "datasetARN"
響應包含以下內容。
{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:
aws-region
:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }