Mengimpor data massal ke Amazon Personalisasi dengan pekerjaan impor kumpulan data - Amazon Personalize

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengimpor data massal ke Amazon Personalisasi dengan pekerjaan impor kumpulan data

Setelah Anda memformat data input Anda (lihatMempersiapkan data pelatihan untuk Amazon Personalize) dan selesaiMembuat skema dan dataset, Anda siap untuk mengimpor data massal Anda dengan pekerjaan impor dataset. Pekerjaan impor dataset adalah alat impor massal yang mengisi kumpulan data dengan data dari Amazon S3.

Untuk mengimpor data dari Amazon S3, CSV file Anda harus berada dalam bucket Amazon S3 dan Anda harus memberikan izin Amazon Personalize untuk mengakses sumber daya Amazon S3 Anda:

Anda dapat membuat tugas impor kumpulan data menggunakan konsol Amazon Personalize AWS Command Line Interface ,AWS CLI(), atau. AWS SDKs Jika sebelumnya Anda membuat pekerjaan impor kumpulan data untuk kumpulan data, Anda dapat menggunakan pekerjaan impor kumpulan data baru untuk menambah atau mengganti data massal yang ada. Untuk informasi selengkapnya, lihat Memperbarui data dalam kumpulan data setelah pelatihan.

Jika Anda mengimpor item, pengguna, atau tindakan dengan ID yang sama dengan catatan yang sudah ada di kumpulan data Anda, Amazon Personalize menggantinya dengan catatan baru. Jika Anda merekam dua interaksi item atau peristiwa interaksi tindakan dengan stempel waktu yang sama persis dan properti yang identik, Amazon Personalize hanya menyimpan satu peristiwa.

Setelah mengimpor data, Anda siap membuat pemberi rekomendasi domain (untuk grup kumpulan data Domain) atau sumber daya khusus (untuk grup kumpulan data kustom) untuk melatih model pada data Anda. Anda menggunakan sumber daya ini untuk menghasilkan rekomendasi. Untuk informasi selengkapnya, lihat Rekomendasi domain di Amazon Personalisasi atau Sumber daya khusus untuk melatih dan menerapkan model Amazon Personalize.

Mode impor

Jika Anda telah membuat pekerjaan impor untuk kumpulan data, Anda dapat mengonfigurasi cara Amazon Personalize menambahkan catatan baru Anda. Untuk melakukan ini, Anda menentukan mode impor untuk pekerjaan impor dataset Anda. Jika Anda belum mengimpor catatan massal, bidang mode Impor tidak tersedia di konsol dan Anda hanya dapat menentukan FULL dalam CreateDatasetImportJob API operasi. Defaultnya adalah pengganti penuh.

  • Untuk menimpa semua data massal yang ada di kumpulan data Anda, pilih Ganti data yang ada di konsol Amazon Personalize atau FULL tentukan dalam operasi. CreateDatasetImportJob API Ini tidak menggantikan data yang Anda impor satu per satu, termasuk peristiwa yang direkam secara real time.

  • Untuk menambahkan catatan ke data yang ada di kumpulan data Anda, pilih Tambahkan ke data yang ada atau tentukan INCREMENTAL dalam operasi. CreateDatasetImportJob API Amazon Personalize menggantikan catatan apa pun dengan ID yang sama dengan yang baru.

    catatan

    Untuk menambahkan data ke kumpulan data interaksi Item atau Kumpulan data interaksi tindakan dengan pekerjaan impor kumpulan data, Anda harus memiliki minimal 1000 interaksi item baru atau catatan interaksi tindakan.

Membuat pekerjaan impor dataset (konsol)

penting

Secara default, pekerjaan impor dataset menggantikan data yang ada dalam kumpulan data yang Anda impor secara massal. Jika Anda sudah mengimpor data massal, Anda dapat menambahkan data dengan mengubah mode impor pekerjaan.

Untuk mengimpor data massal ke dalam kumpulan data dengan konsol Amazon Personalize, buat pekerjaan impor kumpulan data dengan nama, IAM peran layanan, dan lokasi data Anda.

Jika Anda baru saja membuat kumpulan data diMembuat skema dan dataset, lewati ke langkah 5.

Untuk mengimpor catatan massal (konsol)
  1. Buka konsol Amazon Personalize di https://console.aws.amazon.com/personalize/rumah dan masuk ke akun Anda.

  2. Pada halaman grup Dataset, pilih grup kumpulan data Anda. Ikhtisar grup kumpulan data ditampilkan.

  3. Di panel navigasi, pilih Datasets dan pilih dataset yang ingin Anda impor data massal.

  4. Di pekerjaan impor Dataset, pilih Buat pekerjaan impor set data.

  5. Jika ini adalah pekerjaan impor kumpulan data pertama Anda, untuk Sumber impor data pilih Impor data dari S3.

  6. Untuk nama pekerjaan impor Dataset, tentukan nama untuk pekerjaan impor Anda.

  7. Jika Anda sudah mengimpor data massal, untuk mode Impor, pilih cara memperbarui kumpulan data. Pilih salah satu Ganti data yang ada atau Tambahkan ke data yang ada. data. Opsi ini tidak muncul jika ini adalah pekerjaan pertama Anda untuk kumpulan data. Untuk informasi selengkapnya, lihat Memperbarui data dalam kumpulan data setelah pelatihan.

  8. Di Sumber impor data, untuk Lokasi Data, tentukan tempat file data Anda disimpan di Amazon S3. Gunakan sintaks berikut:

    s3:/amzn-s3-demo-bucket/<folder path>/<CSV filename>

    Jika CSV file Anda berada di folder di bucket Amazon S3 dan Anda ingin mengunggah beberapa CSV file ke kumpulan data dengan satu tugas impor kumpulan data, Anda dapat menentukan jalur ke folder tersebut. Amazon Personalize hanya menggunakan file di tingkat pertama folder Anda, tidak menggunakan data apa pun di sub folder apa pun. Gunakan sintaks berikut dengan nama folder / setelah:

    s3:/amzn-s3-demo-bucket/<folder path>/

  9. Dalam IAMperan, pilih untuk membuat peran baru atau menggunakan yang sudah ada. Jika Anda menyelesaikan prasyarat, pilih Gunakan peran layanan yang ada dan tentukan peran yang Anda buat. Membuat peran IAM untuk Amazon Personalize

  10. Jika Anda membuat atribusi metrik dan ingin memublikasikan metrik yang terkait dengan pekerjaan ini ke Amazon S3, di Publikasikan metrik peristiwa ke S3 pilih Publikasikan metrik untuk pekerjaan impor ini.

    Jika Anda belum membuatnya dan ingin mempublikasikan metrik untuk pekerjaan ini, pilih Buat atribusi metrik untuk membuat yang baru di tab lain. Setelah membuat atribusi metrik, Anda dapat kembali ke layar ini dan menyelesaikan pembuatan pekerjaan impor.

    Untuk informasi lebih lanjut tentang atribusi metrik, lihatMengukur dampak rekomendasi Amazon Personalize.

  11. Untuk Tag, secara opsional tambahkan tag apa pun. Untuk informasi selengkapnya tentang menandai sumber daya Amazon Personalize, lihat. Menandai Amazon Personalisasi sumber daya

  12. Pilih Mulai impor. Pekerjaan impor data dimulai dan halaman Ikhtisar Dasbor ditampilkan. Impor dataset selesai ketika status ditampilkan sebagaiACTIVE. Setelah mengimpor data ke dalam kumpulan data Amazon Personalize, Anda dapat menganalisisnya, mengekspornya ke bucket Amazon S3, memperbaruinya, atau menghapusnya dengan menghapus kumpulan data.

    Setelah mengimpor data, Anda siap membuat pemberi rekomendasi domain (untuk grup kumpulan data Domain) atau sumber daya khusus (untuk grup kumpulan data kustom) untuk melatih model pada data Anda. Anda menggunakan sumber daya ini untuk menghasilkan rekomendasi. Untuk informasi selengkapnya, lihat Rekomendasi domain di Amazon Personalisasi atau Sumber daya khusus untuk melatih dan menerapkan model Amazon Personalize.

Membuat pekerjaan impor dataset ()AWS CLI

penting

Secara default, pekerjaan impor dataset menggantikan data yang ada dalam kumpulan data yang Anda impor secara massal. Jika Anda sudah mengimpor data massal, Anda dapat menambahkan data dengan mengubah mode impor pekerjaan.

Untuk mengimpor catatan massal menggunakan AWS CLI, buat pekerjaan impor dataset menggunakan CreateDatasetImportJob perintah. Jika sebelumnya Anda telah membuat pekerjaan impor kumpulan data untuk kumpulan data, Anda dapat menggunakan parameter mode impor untuk menentukan cara menambahkan data baru. Untuk informasi selengkapnya tentang memperbarui data massal yang ada, lihatMemperbarui data dalam kumpulan data setelah pelatihan.

Impor catatan massal (AWS CLI)
  1. Buat pekerjaan impor dataset dengan menjalankan perintah berikut. Berikan Amazon Resource Name (ARN) untuk kumpulan data Anda dan tentukan jalur ke bucket Amazon S3 tempat Anda menyimpan data pelatihan. Gunakan sintaks berikut untuk jalur:

    s3:/amzn-s3-demo-bucket/<folder path>/<CSV filename>

    Jika CSV file Anda berada di folder di bucket Amazon S3 dan Anda ingin mengunggah beberapa CSV file ke kumpulan data dengan satu tugas impor kumpulan data, Anda dapat menentukan jalur ke folder tersebut. Amazon Personalize hanya menggunakan file di tingkat pertama folder Anda, tidak menggunakan data apa pun di sub folder apa pun. Gunakan sintaks berikut dengan nama folder / setelah:

    s3:/amzn-s3-demo-bucket/<folder path>/

    Berikan peran AWS Identity and Access Management (IAM) Amazon Resource Name (ARN) yang Anda buatMembuat peran IAM untuk Amazon Personalize. import-modeDefaultnya adalahFULL. Untuk informasi selengkapnya, lihat Memperbarui data dalam kumpulan data setelah pelatihan. Untuk informasi lebih lanjut tentang operasi, lihatCreateDatasetImportJob.

    aws personalize create-dataset-import-job \ --job-name dataset import job name \ --dataset-arn dataset arn \ --data-source dataLocation=s3://amzn-s3-demo-bucket/filename \ --role-arn roleArn \ --import-mode FULL

    Pekerjaan impor dataset ARN ditampilkan, seperti yang ditunjukkan pada contoh berikut.

    { "datasetImportJobArn": "arn:aws:personalize:us-west-2:acct-id:dataset-import-job/DatasetImportJobName" }
  2. Periksa status dengan menggunakan describe-dataset-import-job perintah. Berikan pekerjaan impor dataset ARN yang dikembalikan pada langkah sebelumnya. Untuk informasi lebih lanjut tentang operasi, lihatDescribeDatasetImportJob.

    aws personalize describe-dataset-import-job \ --dataset-import-job-arn dataset import job arn

    Properti pekerjaan impor dataset, termasuk statusnya, ditampilkan. Awalnya, status pertunjukan sebagai CREATEPENDING.

    { "datasetImportJob": { "jobName": "Dataset Import job name", "datasetImportJobArn": "arn:aws:personalize:us-west-2:acct-id:dataset-import-job/DatasetImportJobArn", "datasetArn": "arn:aws:personalize:us-west-2:acct-id:dataset/DatasetGroupName/INTERACTIONS", "dataSource": { "dataLocation": "s3://amzn-s3-demo-bucket/ratings.csv" }, "importMode": "FULL", "roleArn": "role-arn", "status": "CREATE PENDING", "creationDateTime": 1542392161.837, "lastUpdatedDateTime": 1542393013.377 } }

    Impor dataset selesai ketika status ditampilkan sebagaiACTIVE. Setelah mengimpor data ke dalam kumpulan data Amazon Personalize, Anda dapat menganalisisnya, mengekspornya ke bucket Amazon S3, memperbaruinya, atau menghapusnya dengan menghapus kumpulan data.

    Setelah mengimpor data, Anda siap membuat pemberi rekomendasi domain (untuk grup kumpulan data Domain) atau sumber daya khusus (untuk grup kumpulan data kustom) untuk melatih model pada data Anda. Anda menggunakan sumber daya ini untuk menghasilkan rekomendasi. Untuk informasi selengkapnya, lihat Rekomendasi domain di Amazon Personalisasi atau Sumber daya khusus untuk melatih dan menerapkan model Amazon Personalize.

Membuat pekerjaan impor dataset ()AWS SDKs

penting

Secara default, pekerjaan impor dataset menggantikan data yang ada dalam kumpulan data yang Anda impor secara massal. Jika Anda sudah mengimpor data massal, Anda dapat menambahkan data dengan mengubah mode impor pekerjaan.

Untuk mengimpor data, buat pekerjaan impor dataset dengan CreateDatasetImportJob operasi. Kode berikut menunjukkan cara membuat pekerjaan impor dataset.

Berikan nama pekerjaan, setel Amazon Resource Name (ARN) dari kumpulan data Anda, dan setel dataLocation ke path ke bucket Amazon S3 tempat Anda menyimpan data pelatihan. datasetArn Gunakan sintaks berikut untuk jalur:

s3:/amzn-s3-demo-bucket/<folder path>/<CSV filename>.csv

Jika CSV file Anda berada di folder di bucket Amazon S3 dan Anda ingin mengunggah beberapa CSV file ke kumpulan data dengan satu tugas impor kumpulan data, Anda dapat menentukan jalur ke folder tersebut. Amazon Personalize hanya menggunakan file di tingkat pertama folder Anda, tidak menggunakan data apa pun di sub folder apa pun. Gunakan sintaks berikut dengan nama folder / setelah:

s3:/amzn-s3-demo-bucket/<folder path>/

Untuk ituroleArn, tentukan peran AWS Identity and Access Management (IAM) yang memberikan izin Amazon Personalize untuk mengakses bucket S3 Anda. Lihat Membuat peran IAM untuk Amazon Personalize. importModeDefaultnya adalahFULL. Ini menggantikan semua data massal dalam kumpulan data. Untuk menambahkan data, atur keINCREMENTAL. Untuk informasi selengkapnya tentang memperbarui data massal yang ada, lihatMemperbarui data dalam kumpulan data setelah pelatihan.

SDK for Python (Boto3)
import boto3 personalize = boto3.client('personalize') response = personalize.create_dataset_import_job( jobName = 'YourImportJob', datasetArn = 'dataset_arn', dataSource = {'dataLocation':'s3://amzn-s3-demo-bucket/filename.csv'}, roleArn = 'role_arn', importMode = 'FULL' ) dsij_arn = response['datasetImportJobArn'] print ('Dataset Import Job arn: ' + dsij_arn) description = personalize.describe_dataset_import_job( datasetImportJobArn = dsij_arn)['datasetImportJob'] print('Name: ' + description['jobName']) print('ARN: ' + description['datasetImportJobArn']) print('Status: ' + description['status'])
SDK for Java 2.x
public static String createPersonalizeDatasetImportJob(PersonalizeClient personalizeClient, String jobName, String datasetArn, String s3BucketPath, String roleArn, ImportMode importMode) { long waitInMilliseconds = 60 * 1000; String status; String datasetImportJobArn; try { DataSource importDataSource = DataSource.builder() .dataLocation(s3BucketPath) .build(); CreateDatasetImportJobRequest createDatasetImportJobRequest = CreateDatasetImportJobRequest.builder() .datasetArn(datasetArn) .dataSource(importDataSource) .jobName(jobName) .roleArn(roleArn) .importMode(importMode) .build(); datasetImportJobArn = personalizeClient.createDatasetImportJob(createDatasetImportJobRequest) .datasetImportJobArn(); DescribeDatasetImportJobRequest describeDatasetImportJobRequest = DescribeDatasetImportJobRequest.builder() .datasetImportJobArn(datasetImportJobArn) .build(); long maxTime = Instant.now().getEpochSecond() + 3 * 60 * 60; while (Instant.now().getEpochSecond() < maxTime) { DatasetImportJob datasetImportJob = personalizeClient .describeDatasetImportJob(describeDatasetImportJobRequest) .datasetImportJob(); status = datasetImportJob.status(); System.out.println("Dataset import job status: " + status); if (status.equals("ACTIVE") || status.equals("CREATE FAILED")) { break; } try { Thread.sleep(waitInMilliseconds); } catch (InterruptedException e) { System.out.println(e.getMessage()); } } return datasetImportJobArn; } catch (PersonalizeException e) { System.out.println(e.awsErrorDetails().errorMessage()); } return ""; }
SDK for JavaScript v3
// Get service clients and commands using ES6 syntax. import { CreateDatasetImportJobCommand, PersonalizeClient } from "@aws-sdk/client-personalize"; // create personalizeClient const personalizeClient = new PersonalizeClient({ region: "REGION" }); // Set the dataset import job parameters. export const datasetImportJobParam = { datasetArn: 'DATASET_ARN', /* required */ dataSource: { dataLocation: 's3://amzn-s3-demo-bucket/<folderName>/<CSVfilename>.csv' /* required */ }, jobName: 'NAME', /* required */ roleArn: 'ROLE_ARN', /* required */ importMode: "FULL" /* optional, default is FULL */ }; export const run = async () => { try { const response = await personalizeClient.send(new CreateDatasetImportJobCommand(datasetImportJobParam)); console.log("Success", response); return response; // For unit tests. } catch (err) { console.log("Error", err); } }; run();

Tanggapan dari DescribeDatasetImportJob operasi mencakup status operasi.

Anda harus menunggu hingga status berubah ACTIVE sebelum Anda dapat menggunakan data untuk melatih model.

Impor dataset selesai ketika status ditampilkan sebagaiACTIVE. Setelah mengimpor data ke dalam kumpulan data Amazon Personalize, Anda dapat menganalisisnya, mengekspornya ke bucket Amazon S3, memperbaruinya, atau menghapusnya dengan menghapus kumpulan data.

Setelah mengimpor data, Anda siap membuat pemberi rekomendasi domain (untuk grup kumpulan data Domain) atau sumber daya khusus (untuk grup kumpulan data kustom) untuk melatih model pada data Anda. Anda menggunakan sumber daya ini untuk menghasilkan rekomendasi. Untuk informasi selengkapnya, lihat Rekomendasi domain di Amazon Personalisasi atau Sumber daya khusus untuk melatih dan menerapkan model Amazon Personalize.