Mengimpor catatan massal dengan pekerjaan impor dataset - Amazon Personalize

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengimpor catatan massal dengan pekerjaan impor dataset

Setelah memformat data input (lihatPedoman format data), mengunggahnya ke bucket Amazon Simple Storage Service (Amazon S3) (lihat) (Mengunggah ke bucket Amazon S3lihat), lalu Membuat dataset dan skema selesaikan, impor data massal ke dalam kumpulan data dengan membuat tugas impor kumpulan data.

Pekerjaan impor kumpulan data adalah alat impor massal yang mengisi kumpulan data Anda dengan data dari bucket Amazon S3 Anda. Anda dapat membuat tugas impor kumpulan data menggunakan konsol Amazon Personalize AWS Command Line Interface ,AWS CLI(), AWS atau SDK.

Jika sebelumnya Anda telah membuat pekerjaan impor kumpulan data untuk kumpulan data, Anda dapat menggunakan pekerjaan impor kumpulan data baru untuk menambah atau mengganti data massal yang ada. Untuk mengetahui informasi selengkapnya, lihat Memperbarui data massal yang ada.

Mode impor

Jika Anda telah membuat pekerjaan impor untuk kumpulan data, Anda dapat mengonfigurasi cara Amazon Personalize menambahkan catatan baru Anda. Untuk melakukan ini, Anda menentukan mode impor untuk pekerjaan impor dataset Anda. Jika Anda belum mengimpor data massal, bidang mode Impor tidak tersedia di konsol dan Anda hanya dapat menentukan FULL dalam operasi CreateDatasetImportJob API. Defaultnya adalah pengganti penuh.

  • Untuk menimpa semua data massal yang ada di kumpulan data Anda, pilih Ganti data yang ada di konsol Amazon Personalize atau FULL tentukan dalam CreateDatasetImportJob operasi API. Ini tidak menggantikan data yang Anda impor satu per satu, termasuk peristiwa yang direkam secara real time.

  • Untuk menambahkan catatan ke data yang ada di kumpulan data Anda, pilih Tambahkan ke data yang ada atau tentukan INCREMENTAL dalam operasi CreateDatasetImportJob API. Amazon Personalize menggantikan catatan apa pun dengan ID yang sama dengan yang baru.

    catatan

    Untuk menambahkan data ke kumpulan data interaksi Item atau Kumpulan data interaksi tindakan dengan pekerjaan impor kumpulan data, Anda harus memiliki minimal 1000 interaksi item baru atau catatan interaksi tindakan.

Mengimpor catatan massal (konsol)

penting

Secara default, pekerjaan impor dataset menggantikan data yang ada dalam kumpulan data yang Anda impor secara massal. Jika Anda sudah mengimpor data massal, Anda dapat menambahkan data dengan mengubah mode impor pekerjaan.

Untuk mengimpor data massal ke dalam kumpulan data dengan konsol Amazon Personalize, buat pekerjaan impor kumpulan data dengan nama, peran layanan IAM, dan lokasi data Anda.

Jika Anda baru saja membuat kumpulan data diMembuat dataset dan skema, lewati ke langkah 5.

Untuk mengimpor catatan massal (konsol)
  1. Buka konsol Amazon Personalize di https://console.aws.amazon.com/personalize/home dan masuk ke akun Anda.

  2. Pada halaman grup Dataset, pilih grup kumpulan data Anda. Ikhtisar grup kumpulan data ditampilkan.

  3. Di panel navigasi, pilih Kumpulan data dan pilih kumpulan data yang ingin Anda impor data massal.

  4. Di pekerjaan impor Dataset, pilih Buat pekerjaan impor set data.

  5. Jika ini adalah pekerjaan impor kumpulan data pertama Anda, untuk Sumber impor data pilih Impor data dari S3.

  6. Untuk nama pekerjaan impor Dataset, tentukan nama untuk pekerjaan impor Anda.

  7. Jika Anda sudah mengimpor data massal, untuk mode Impor, pilih cara memperbarui kumpulan data. Pilih salah satu Ganti data yang ada atau Tambahkan ke data yang ada. data. Opsi ini tidak muncul jika ini adalah pekerjaan pertama Anda untuk kumpulan data. Untuk mengetahui informasi selengkapnya, lihat Memperbarui data massal yang ada.

  8. Di Sumber impor data, untuk Lokasi Data, tentukan tempat file data Anda disimpan di Amazon S3. Gunakan sintaks berikut:

    s3://<name of your S3 bucket>/<folder path>/<CSV filename>

    Jika file CSV Anda berada di folder di bucket Amazon S3 dan Anda ingin mengunggah beberapa file CSV ke kumpulan data dengan satu tugas impor kumpulan data, Anda dapat menentukan jalur ke folder tersebut. Amazon Personalize hanya menggunakan file di tingkat pertama folder Anda, tidak menggunakan data apa pun di sub folder apa pun. Gunakan sintaks berikut dengan nama folder / setelah:

    s3://<name of your S3 bucket>/<folder path>/

  9. Dalam peran IAM, pilih untuk membuat peran baru atau menggunakan yang sudah ada. Jika Anda menyelesaikan prasyarat, pilih Gunakan peran layanan yang ada dan tentukan peran yang Anda buat. Membuat peran IAM untuk Amazon Personalize

  10. Jika Anda membuat atribusi metrik dan ingin memublikasikan metrik yang terkait dengan pekerjaan ini ke Amazon S3, di Publikasikan metrik peristiwa ke S3 pilih Publikasikan metrik untuk pekerjaan impor ini.

    Jika Anda belum membuatnya dan ingin menerbitkan metrik untuk pekerjaan ini, pilih Buat atribusi metrik untuk membuat yang baru di tab lain. Setelah membuat atribusi metrik, Anda dapat kembali ke layar ini dan menyelesaikan pembuatan pekerjaan impor.

    Untuk informasi lebih lanjut tentang atribusi metrik, lihatMengukur dampak rekomendasi.

  11. Untuk Tag, secara opsional tambahkan tag apa pun. Untuk informasi selengkapnya tentang menandai sumber daya Amazon Personalize, lihat. Menandai Amazon Personalisasi sumber daya

  12. Pilih Mulai impor. Pekerjaan impor data dimulai dan halaman Ikhtisar Dasbor ditampilkan. Impor dataset selesai ketika status ditampilkan sebagai ACTIVE. Setelah mengimpor data ke dalam kumpulan data Amazon Personalize, Anda dapat menganalisisnya, mengekspornya ke bucket Amazon S3, memperbaruinya, atau menghapusnya dengan menghapus kumpulan data. Untuk informasi selengkapnya, lihat Mengelola data pelatihan dalam kumpulan data Anda.

    Setelah Anda mengimpor data Anda, Anda siap untuk membuat solusi. Untuk informasi selengkapnya, lihat Membuat solusi dan versi solusi.

Mengimpor catatan massal ()AWS CLI

penting

Secara default, pekerjaan impor dataset menggantikan data yang ada dalam kumpulan data yang Anda impor secara massal. Jika Anda sudah mengimpor data massal, Anda dapat menambahkan data dengan mengubah mode impor pekerjaan.

Untuk mengimpor catatan massal menggunakan AWS CLI, buat pekerjaan impor dataset menggunakan CreateDatasetImportJob perintah. Jika sebelumnya Anda telah membuat pekerjaan impor kumpulan data untuk kumpulan data, Anda dapat menggunakan parameter mode impor untuk menentukan cara menambahkan data baru. Untuk informasi selengkapnya tentang memperbarui data massal yang ada, lihatMemperbarui data massal yang ada.

Impor catatan massal (AWS CLI)
  1. Buat pekerjaan impor dataset dengan menjalankan perintah berikut. Berikan Nama Sumber Daya Amazon (ARN) untuk kumpulan data Anda dan tentukan jalur ke bucket Amazon S3 tempat Anda menyimpan data pelatihan. Gunakan sintaks berikut untuk jalur:

    s3://<name of your S3 bucket>/<folder path>/<CSV filename>

    Jika file CSV Anda berada di folder di bucket Amazon S3 dan Anda ingin mengunggah beberapa file CSV ke kumpulan data dengan satu tugas impor kumpulan data, Anda dapat menentukan jalur ke folder tersebut. Amazon Personalize hanya menggunakan file di tingkat pertama folder Anda, tidak menggunakan data apa pun di sub folder apa pun. Gunakan sintaks berikut dengan nama folder / setelah:

    s3://<name of your S3 bucket>/<folder path>/

    Berikan peran AWS Identity and Access Management (IAM) Nama Sumber Daya Amazon (ARN) yang Anda buat. Membuat peran IAM untuk Amazon Personalize import-modeDefaultnya adalahFULL. Untuk mengetahui informasi selengkapnya, lihat Memperbarui data massal yang ada. Untuk informasi lebih lanjut tentang operasi, lihatCreateDatasetImportJob.

    aws personalize create-dataset-import-job \ --job-name dataset import job name \ --dataset-arn dataset arn \ --data-source dataLocation=s3://bucketname/filename \ --role-arn roleArn \ --import-mode FULL

    Pekerjaan impor dataset ARN ditampilkan, seperti yang ditunjukkan pada contoh berikut.

    { "datasetImportJobArn": "arn:aws:personalize:us-west-2:acct-id:dataset-import-job/DatasetImportJobName" }
  2. Periksa status dengan menggunakan describe-dataset-import-job perintah. Berikan ARN pekerjaan impor dataset yang dikembalikan pada langkah sebelumnya. Untuk informasi lebih lanjut tentang operasi, lihatDescribeDatasetImportJob.

    aws personalize describe-dataset-import-job \ --dataset-import-job-arn dataset import job arn

    Properti pekerjaan impor dataset, termasuk statusnya, ditampilkan. Awalnya, status ditampilkan sebagai CREATE PENDING.

    { "datasetImportJob": { "jobName": "Dataset Import job name", "datasetImportJobArn": "arn:aws:personalize:us-west-2:acct-id:dataset-import-job/DatasetImportJobArn", "datasetArn": "arn:aws:personalize:us-west-2:acct-id:dataset/DatasetGroupName/INTERACTIONS", "dataSource": { "dataLocation": "s3://<bucketname>/ratings.csv" }, "importMode": "FULL", "roleArn": "role-arn", "status": "CREATE PENDING", "creationDateTime": 1542392161.837, "lastUpdatedDateTime": 1542393013.377 } }

    Impor dataset selesai ketika status ditampilkan sebagai ACTIVE. Setelah mengimpor data ke dalam kumpulan data Amazon Personalize, Anda dapat menganalisisnya, mengekspornya ke bucket Amazon S3, memperbaruinya, atau menghapusnya dengan menghapus kumpulan data. Untuk informasi selengkapnya, lihat Mengelola data pelatihan dalam kumpulan data Anda.

    Setelah mengimpor data ke kumpulan data yang relevan di grup kumpulan data, Anda dapat membuat versi solusi (model terlatih). Untuk informasi selengkapnya, lihat Membuat solusi dan versi solusi.

Mengimpor catatan massal (AWS SDK)

penting

Secara default, pekerjaan impor dataset menggantikan data yang ada dalam kumpulan data yang Anda impor secara massal. Jika Anda sudah mengimpor data massal, Anda dapat menambahkan data dengan mengubah mode impor pekerjaan.

Untuk mengimpor data, buat pekerjaan impor dataset dengan CreateDatasetImportJob operasi. Kode berikut menunjukkan cara membuat pekerjaan impor dataset.

Berikan nama pekerjaan, setel Nama Sumber Daya Amazon (ARN) dari kumpulan data Anda, dan setel ke path dataLocation ke bucket Amazon S3 tempat Anda menyimpan data pelatihan. datasetArn Gunakan sintaks berikut untuk jalur:

s3://<name of your S3 bucket>/<folder path>/<CSV filename>.csv

Jika file CSV Anda berada di folder di bucket Amazon S3 dan Anda ingin mengunggah beberapa file CSV ke kumpulan data dengan satu tugas impor kumpulan data, Anda dapat menentukan jalur ke folder tersebut. Amazon Personalize hanya menggunakan file di tingkat pertama folder Anda, tidak menggunakan data apa pun di sub folder apa pun. Gunakan sintaks berikut dengan nama folder / setelah:

s3://<name of your S3 bucket>/<folder path>/

Untuk ituroleArn, tentukan peran AWS Identity and Access Management (IAM) yang memberikan izin Amazon Personalize untuk mengakses bucket S3 Anda. Lihat Membuat peran IAM untuk Amazon Personalize. importModeDefaultnya adalahFULL. Ini menggantikan semua data massal dalam kumpulan data. Untuk menambahkan data, atur keINCREMENTAL. Untuk informasi selengkapnya tentang memperbarui data massal yang ada, lihatMemperbarui data massal yang ada.

SDK for Python (Boto3)
import boto3 personalize = boto3.client('personalize') response = personalize.create_dataset_import_job( jobName = 'YourImportJob', datasetArn = 'dataset_arn', dataSource = {'dataLocation':'s3://bucket/file.csv'}, roleArn = 'role_arn', importMode = 'FULL' ) dsij_arn = response['datasetImportJobArn'] print ('Dataset Import Job arn: ' + dsij_arn) description = personalize.describe_dataset_import_job( datasetImportJobArn = dsij_arn)['datasetImportJob'] print('Name: ' + description['jobName']) print('ARN: ' + description['datasetImportJobArn']) print('Status: ' + description['status'])
SDK for Java 2.x
public static String createPersonalizeDatasetImportJob(PersonalizeClient personalizeClient, String jobName, String datasetArn, String s3BucketPath, String roleArn, ImportMode importMode) { long waitInMilliseconds = 60 * 1000; String status; String datasetImportJobArn; try { DataSource importDataSource = DataSource.builder() .dataLocation(s3BucketPath) .build(); CreateDatasetImportJobRequest createDatasetImportJobRequest = CreateDatasetImportJobRequest.builder() .datasetArn(datasetArn) .dataSource(importDataSource) .jobName(jobName) .roleArn(roleArn) .importMode(importMode) .build(); datasetImportJobArn = personalizeClient.createDatasetImportJob(createDatasetImportJobRequest) .datasetImportJobArn(); DescribeDatasetImportJobRequest describeDatasetImportJobRequest = DescribeDatasetImportJobRequest.builder() .datasetImportJobArn(datasetImportJobArn) .build(); long maxTime = Instant.now().getEpochSecond() + 3 * 60 * 60; while (Instant.now().getEpochSecond() < maxTime) { DatasetImportJob datasetImportJob = personalizeClient .describeDatasetImportJob(describeDatasetImportJobRequest) .datasetImportJob(); status = datasetImportJob.status(); System.out.println("Dataset import job status: " + status); if (status.equals("ACTIVE") || status.equals("CREATE FAILED")) { break; } try { Thread.sleep(waitInMilliseconds); } catch (InterruptedException e) { System.out.println(e.getMessage()); } } return datasetImportJobArn; } catch (PersonalizeException e) { System.out.println(e.awsErrorDetails().errorMessage()); } return ""; }
SDK for JavaScript v3
// Get service clients and commands using ES6 syntax. import { CreateDatasetImportJobCommand, PersonalizeClient } from "@aws-sdk/client-personalize"; // create personalizeClient const personalizeClient = new PersonalizeClient({ region: "REGION" }); // Set the dataset import job parameters. export const datasetImportJobParam = { datasetArn: 'DATASET_ARN', /* required */ dataSource: { dataLocation: 's3://<name of your S3 bucket>/<folderName>/<CSVfilename>.csv' /* required */ }, jobName: 'NAME', /* required */ roleArn: 'ROLE_ARN', /* required */ importMode: "FULL" /* optional, default is FULL */ }; export const run = async () => { try { const response = await personalizeClient.send(new CreateDatasetImportJobCommand(datasetImportJobParam)); console.log("Success", response); return response; // For unit tests. } catch (err) { console.log("Error", err); } }; run();

Tanggapan dari DescribeDatasetImportJob operasi mencakup status operasi.

Anda harus menunggu hingga status berubah menjadi AKTIF sebelum Anda dapat menggunakan data untuk melatih model.

Impor dataset selesai ketika status ditampilkan sebagai ACTIVE. Setelah mengimpor data ke dalam kumpulan data Amazon Personalize, Anda dapat menganalisisnya, mengekspornya ke bucket Amazon S3, memperbaruinya, atau menghapusnya dengan menghapus kumpulan data. Untuk informasi selengkapnya, lihat Mengelola data pelatihan dalam kumpulan data Anda.

Setelah mengimpor data ke kumpulan data yang relevan di grup kumpulan data, Anda dapat membuat versi solusi (model terlatih). Untuk informasi selengkapnya, lihat Membuat solusi dan versi solusi.