Pedoman format data - Amazon Personalize

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pedoman format data

Saat mengimpor data ke kumpulan data Amazon Personalize, Anda dapat memilih untuk mengimpor rekaman secara massal, satu per satu, atau keduanya.

  • Impor massal melibatkan impor sejumlah besar catatan sejarah sekaligus. Anda dapat menyiapkan dan mengimpor data massal Anda dengan SageMaker Data Wrangler dan beberapa sumber data. Atau Anda dapat menyiapkan data massal sendiri, dan mengimpornya langsung ke Amazon Personalisasi dari file CSV di Amazon S3.

  • Dengan impor individual, Anda mengimpor data individual dengan konsol Amazon Personalize dan operasi API. Atau Anda dapat mengalirkan data interaksi dari acara langsung secara real time. Untuk informasi selengkapnya tentang impor individual, lihatMengimpor catatan individu.

Sebelum Anda mengimpor data massal Anda, pastikan itu diformat dengan benar. Bagian berikut dapat membantu Anda memformat data massal Anda. Jika Anda tidak yakin bagaimana memformat data Anda, Anda dapat menggunakan Amazon SageMaker Data Wrangler (Data Wrangler) untuk menyiapkan data Anda. Untuk informasi selengkapnya, lihat Mempersiapkan dan mengimpor data menggunakan Amazon SageMaker Data Wrangler.

Pedoman dan persyaratan format data massal

Panduan dan persyaratan berikut dapat membantu Anda memastikan data massal Anda diformat dengan benar.

  • Data masukan Anda harus dalam file CSV (nilai yang dipisahkan koma).

  • Baris pertama file CSV Anda harus berisi header kolom Anda. Jangan lampirkan header dalam tanda kutip (“).

  • Pastikan Anda memiliki bidang yang diperlukan untuk jenis kumpulan data Anda dan pastikan namanya selaras dengan persyaratan Amazon Personalize. Misalnya, data Item Anda mungkin memiliki kolom yang dipanggil ITEM_IDENTIFICATION_NUMBER dengan ID untuk setiap item Anda. Untuk menggunakan kolom ini sebagai bidang ITEM_ID, ganti nama kolom menjadi. ITEM_ID Jika Anda menggunakan Data Wrangler untuk memformat data, Anda dapat menggunakan kolom Peta untuk transformasi Amazon Personalize Data Wrangler untuk memastikan kolom Anda diberi nama dengan benar.

    Untuk informasi tentang bidang wajib, lihatSkema. Untuk informasi tentang menggunakan Data Wrangler untuk menyiapkan data Anda, lihat. Mempersiapkan dan mengimpor data menggunakan Amazon SageMaker Data Wrangler

  • Nama header kolom dalam file CSV Anda harus dipetakan ke skema Anda.

  • Setiap catatan dalam file CSV Anda harus dalam satu baris.

  • Tipe data di setiap kolom harus dipetakan ke skema Anda. Jika Anda menggunakan Data Wrangler untuk memformat data Anda, Anda dapat menggunakan Data Wrangler mengubah Nilai Parse sebagai Jenis untuk mengonversi tipe data.

  • TIMESTAMPdan CREATION_TIMESTAMP data harus dalam format waktu epoch UNIX. Untuk informasi selengkapnya, lihat Data stempel waktu.

  • Hindari menyertakan " karakter atau karakter khusus dalam ID item, ID pengguna, dan data ID tindakan.

  • Jika data Anda menyertakan karakter yang tidak dikodekan ASCII, file CSV Anda harus dikodekan dalam format UTF-8.

  • Pastikan Anda memformat data tekstual apa pun seperti yang dijelaskan dalamMetadata teks tidak terstruktur.

  • Pastikan Anda memformat data tayangan dan data kategoris seperti yang dijelaskan dalam Memformat tayangan eksplisit dan. Memformat data kategoris

Contoh data interaksi

Data interaksi berikut mewakili aktivitas pengguna historis dari situs web yang menjual tiket film. Anda dapat menggunakan data untuk melatih model yang menyediakan rekomendasi film berdasarkan data interaksi pengguna.

USER_ID,ITEM_ID,EVENT_TYPE,EVENT_VALUE,TIMESTAMP 196,242,click,15,881250949 186,302,click,13,891717742 22,377,click,10,878887116 244,51,click,20,880606923 166,346,click,10,886397596 298,474,click,40,884182806 115,265,click,20,881171488 253,465,click,50,891628467 305,451,click,30,886324817

Berikut skema Interaksi terkait:.

{ "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "EVENT_TYPE", "type": "string" }, { "name": "EVENT_VALUE", "type": "float" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }

Amazon Personalisasi membutuhkanUSER_ID,ITEM_ID, dan TIMESTAMP bidang. USER_IDadalah pengenal untuk pengguna aplikasi Anda. ITEM_IDadalah pengenal untuk sebuah film. EVENT_TYPEdan EVENT_VALUE merupakan pengidentifikasi untuk aktivitas pengguna. Dalam data sampel, a click mungkin mewakili acara pembelian film dan 15 mungkin harga pembelian film. TIMESTAMPmewakili waktu zaman Unix saat pembelian film berlangsung.

Data stempel waktu

Data stempel waktu, seperti TIMESTAMP (untuk kumpulan data interaksi Item) atau CREATION_TIMESTAMP (untuk kumpulan data Item), harus dalam format waktu zaman Unix dalam hitungan detik. Misalnya, stempel waktu Epoch dalam detik untuk tanggal 31 Juli 2020 adalah 1596238243. Untuk mengonversi tanggal ke stempel waktu epoch Unix gunakan konverter Epoch - konverter stempel waktu Unix.

Memformat tayangan eksplisit

Jika Anda menggunakan Personalisasi Pengguna resep, Anda dapat merekam dan mengunggah data tayangan. Tayangan adalah daftar item yang terlihat oleh pengguna saat berinteraksi dengan item tertentu (misalnya, diklik atau ditonton). Untuk mengunggah data tayangan dalam impor data massal, rekam setiap ID item secara manual. Pastikan untuk memisahkan nilai dengan bilah vertikal, '|', karakter sebagai bagian dari data interaksi historis Anda. Karakter batang vertikal dihitung menuju batas 1000 karakter untuk data tayangan. Untuk informasi selengkapnya tentang data tayangan, lihatData tayangan.

Berikut ini adalah kutipan singkat dari kumpulan data interaksi Item yang menyertakan tayangan eksplisit di kolom. IMPRESSION

EVENT_TYPE KESAN ITEM_ID TIMESTAMP USER_ID
klik

73|70|17 |95|96

73

1586731606

PENGGUNA_1
klik

35 | 82 | 78 | 57 | 20 | 63 | 1 | 90 | 76 | 75 | 49 | 71 | 26 | 24 | 25 | 6

35

1586735164

PENGGUNA_2
... ... ... ... ...

Aplikasi menunjukkan USER_1 item pengguna73,70, 1795,, 96 dan pengguna akhirnya memilih item73. Saat Anda membuat versi solusi baru berdasarkan data ini, item70,17,95, dan 96 akan lebih jarang direkomendasikan kepada penggunaUSER_1.

Memformat data kategoris

Untuk menyertakan beberapa kategori untuk satu item saat Anda menggunakan data string kategoris, pisahkan nilainya menggunakan bilah vertikal, '|', karakter. Misalnya, untuk item yang memiliki dua kategori, baris data akan menyerupai yang berikut:

ITEM_ID,GENRE item_123,horror|comedy

Setelah memformat data, unggah ke bucket Amazon S3 sehingga Anda dapat mengimpornya ke Amazon Personalize. Untuk informasi selengkapnya, lihat Mengunggah ke bucket Amazon S3.