Mengkonfigurasi dataset - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengkonfigurasi dataset

Untuk menambahkan data pelatihan atau pengujian berlabel ke flywheel, gunakan konsol Amazon Comprehend atau API untuk membuat kumpulan data.

Anda mengonfigurasi setiap kumpulan data sebagai data pelatihan atau data pengujian. Anda mengaitkan kumpulan data dengan roda gaya dan model khusus tertentu. Saat Anda membuat kumpulan data, Amazon Comprehend mengunggah data ke data lake flywheel. Untuk detail tentang format file untuk data pelatihan, lihat Mempersiapkan data pelatihan pengklasifikasi atauMempersiapkan data pelatihan pengenal entitas.

Saat Anda menghapus flywheel, Amazon Comprehend menghapus kumpulan data. Data yang diunggah tetap tersedia di danau data.

Membuat kumpulan data (konsol)

Buat kumpulan data
  1. Masuk ke AWS Management Console dan buka konsol Amazon Comprehend.

  2. Dari menu kiri, pilih Flywheels dan pilih flywheel tempat Anda ingin menambahkan data.

  3. Pilih tab Datasets.

  4. Dalam tabel kumpulan data pelatihan atau Test dataset, pilih Buat dataset.

  5. Di bawah Detail Dataset, masukkan nama untuk kumpulan data dan deskripsi opsional.

  6. Di bawah Spesifikasi data, pilih format Data dan bidang konfigurasi tipe Dataset.

  7. (Opsional) Di bawah format Input, pilih format dokumen input.

  8. Di bawah Lokasi anotasi di S3, masukkan lokasi Amazon S3 dari file anotasi.

  9. Di bawah Lokasi data pelatihan di S3, masukkan lokasi Amazon S3 dari file dokumen.

  10. Pilih Buat.

Membuat kumpulan data (API)

Anda dapat menggunakan CreateDatasetoperasi untuk membuat kumpulan data.

aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }

inputConfig.jsonFile berisi konten berikut.

{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }

Untuk menambah atau menghapus tag pada dataset, gunakan TagResourcedan UntagResourceoperasi.

Jelaskan kumpulan data

Gunakan operasi DescribeDatasetAmazon Comprehend untuk mengambil informasi yang dikonfigurasi tentang flywheel.

aws comprehend describe-dataset \ --dataset-arn "datasetARN"

Tanggapan berisi konten berikut.

{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:aws-region:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }