Menganalisis kualitas dan kuantitas data dalam kumpulan data - Amazon Personalize

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menganalisis kualitas dan kuantitas data dalam kumpulan data

Setelah mengimpor data ke dalam kumpulan data interaksi Item, Pengguna, atau Item, Anda dapat menggunakan konsol Amazon Personalize untuk menganalisis data. Anda dapat mempelajari data Anda melalui wawasan data dan statistik kolom dan baris. Dan Anda dapat mempelajari tindakan apa yang dapat Anda ambil untuk meningkatkan data Anda. Tindakan ini dapat membantu Anda memenuhi persyaratan sumber daya Amazon Personalize, seperti persyaratan pelatihan model, atau dapat mengarah pada rekomendasi yang lebih baik.

penting

Anda tidak dapat menggunakan konsol Amazon Personalize untuk menganalisis data dalam kumpulan data Interaksi atau Tindakan.

Setelah Anda membuat perubahan yang disarankan, Anda dapat mengimpor data Anda lagi dan melihat apakah Anda menyelesaikan masalah atau meningkatkan statistik kumpulan data. Untuk informasi tentang memperbarui data, lihatMengimpor lebih banyak data pelatihan ke dalam kumpulan data.

Jika Anda tidak melihat wawasan apa pun, data Anda sejalan dengan ekspektasi data Amazon Personalisasi. Anda dapat menganalisis data dalam grup kumpulan data Domain atau grup kumpulan data kustom.

Saat menghasilkan wawasan dan menghitung statistik, Amazon Personalize mempertimbangkan semua data massal dan streaming dari pengguna non-anonim. Peristiwa dari pengguna anonim tidak dipertimbangkan sampai Anda mengaitkannya dengan fileuserId. Untuk informasi selengkapnya, lihat Merekam acara untuk pengguna anonim.

Izin yang diperlukan untuk menganalisis data

Jika Anda memberi pengguna akses penuh ke Amazon Personalize, tidak diperlukan perubahan izin. Jika Anda hanya memberi pengguna izin yang diperlukan untuk melakukan tugas di Amazon Personalize, kebijakan (IAM) AWS Identity and Access Management Anda harus menyertakan tindakan wawasan data tambahan berikut.

  • personalisasi: CreateDataInsightsJob

  • personalisasi: ListDataInsightsJobs

  • personalisasi: DescribeDataInsightsJob

  • personalisasi: GetDataInsights

Wawasan data

Berikut ini adalah kemungkinan wawasan data yang dapat Anda hasilkan di Amazon Personalisasi.

Wawasan Tindakan Dataset terkait
Dataset Interaksi hanya memiliki interaksi X. Pelatihan model membutuhkan minimal 1.000 interaksi. Kami merekomendasikan setidaknya 50.000. Impor Y catatan interaksi unik tambahan sebelum melatih model. Interaksi item
Dataset Interaksi hanya memiliki X pengguna unik dengan dua atau lebih interaksi. Pelatihan model membutuhkan setidaknya 25 pengguna tersebut. Kami merekomendasikan setidaknya 1.000. Impor setidaknya 2 catatan interaksi masing-masing untuk pengguna tambahan Y. Interaksi item
X% item dalam kumpulan data Item tidak memiliki interaksi dalam kumpulan data Interaksi, jadi mungkin tidak direkomendasikan.

Pastikan Anda mengimpor semua data interaksi dan memeriksa ketidakcocokan ID antara item dan kumpulan data interaksi Anda. Periksa Statistik Dataset di bawah ini untuk item dan kumpulan data interaksi Anda untuk memastikan Anda telah mengimpor jumlah baris yang diharapkan. Jika kasus penggunaan atau resep Anda menggunakan eksplorasi, ubah konfigurasi eksplorasi untuk merekomendasikan lebih banyak item tanpa data interaksi.

Interaksi item dan Item
10% pengguna dalam kumpulan data Pengguna tidak memiliki interaksi dalam kumpulan data Interaksi. Pengguna ini akan menerima rekomendasi untuk item populer.

Pastikan Anda mengimpor semua data interaksi dan memeriksa ketidakcocokan ID antara pengguna dan kumpulan data interaksi. Periksa Statistik Dataset di bawah ini untuk pengguna dan kumpulan data interaksi Anda untuk memastikan Anda telah mengimpor jumlah baris yang diharapkan. Impor interaksi tambahan apa pun sehingga lebih banyak pengguna memiliki data interaksi.

Interaksi item dan Pengguna
<Users or Items or Interactions>Dataset memiliki baris X% dengan nilai yang hilang. Ini dapat berdampak negatif pada rekomendasi. Kami menyarankan agar semua bidang wajib dan opsional setidaknya 70% persen selesai.

Impor catatan lengkap tambahan, atau impor data lagi tanpa baris yang tidak lengkap, atau impor data lagi dengan nilai yang hilang diganti dengan data pengganti, seperti rata-rata untuk kolom numerik atau nilai paling umum untuk kolom kategoris.

Setiap
Kolom berikut dalam <datasetType>kumpulan data kurang dari 70% lengkap: <ColumnName, ColumnName... >. Jika data ini termasuk dalam pelatihan, itu dapat berdampak negatif pada rekomendasi. Kami merekomendasikan bahwa kolom yang memungkinkan nilai nol setidaknya 70% selesai.

Impor catatan lengkap tambahan, atau impor data lagi tanpa baris yang tidak lengkap, atau impor data lagi dengan nilai yang hilang diganti dengan data pengganti, seperti rata-rata untuk kolom numerik atau nilai paling umum untuk kolom kategoris.

Setiap
Kolom (numerik) berikut memiliki outlier: <ColumnName, ColumnName... >. Outlier tidak selalu menjadi masalah, tetapi terkadang berdampak negatif pada rekomendasi.

Menggunakan Statistik Kolom di bawah ini, periksa apakah nilai min dan maks untuk kolom ini sesuai dengan harapan Anda. Jika nilai ini tidak terduga, periksa data di kolom ini untuk ketidakakuratan dan tinjau pengumpulan data dan pemrosesan data Anda untuk masalah.

Setiap
Kolom berikut memiliki lebih dari 1000 kategori yang mungkin: <ColumnName, ColumnName... >. Jika data ini termasuk dalam pelatihan, itu dapat berdampak negatif pada rekomendasi: <ColumnName, ColumnName... >.

Periksa data kategoris Anda untuk masalah, seperti kategori duplikat yang disebabkan oleh variasi ejaan. Selesaikan ketidakakuratan dan impor data lagi.

Setiap
Kolom metadata tekstual berikut kurang dari 85% persen lengkap dan tidak akan digunakan dalam pelatihan model: <ColumnName, ColumnName... >.

Impor baris tambahan atau impor baris lagi dengan data teks untuk kolom ini.

Item
Dataset Interaksi memiliki lebih dari 10 jenis peristiwa unik, yang akan menyebabkan pelatihan model gagal.

Periksa kolom jenis acara Anda untuk ketidakakuratan seperti jenis peristiwa duplikat yang disebabkan oleh variasi ejaan. Hapus jenis acara yang tidak perlu dan impor data lagi.

Interaksi item
Dataset Interaksi memiliki stempel waktu yang sama untuk semua catatan. Jika Anda menggunakan resep USER_SEGMENTATION dan semua catatan memiliki stempel waktu yang sama, pelatihan model akan gagal.

Periksa data Anda untuk masalah stempel waktu dan ganti stempel waktu duplikat dengan stempel waktu unik.

Interaksi item

Melihat wawasan dan statistik kumpulan data

Untuk melihat wawasan dan statistik tentang data Anda di Amazon Personalisasi kumpulan data, navigasikan ke kumpulan data Anda di konsol Amazon Personalize dan pilih jalankan analisis.

Untuk melihat wawasan dan statistik
  1. Buka konsol Amazon Personalize di https://console.aws.amazon.com/personalize/home dan masuk ke akun Anda.

  2. Pada halaman grup Dataset, pilih grup kumpulan data Anda.

  3. Dari panel navigasi, di bawah Datasets pilih Analisis data.

  4. Di kanan atas, pilih Jalankan analisis. Amazon Personalize mulai menganalisis data Anda. Ini bisa memakan waktu hingga 15 menit. Jika berhasil, hasilnya muncul di halaman ini.

  5. Di Wawasan, gunakan yang berikut ini untuk memfilter wawasan yang muncul.

    • Untuk menemukan wawasan yang menyertakan bahasa tertentu, masukkan kriteria Anda di Temukan wawasan. Saat Anda memasukkan teks, daftar akan diperbarui untuk hanya menyertakan wawasan dengan string yang tepat dalam wawasan atau tindakan yang disarankan.

    • Untuk memfilter wawasan berdasarkan jenis kumpulan data, ubah Semua kumpulan data ke jenis kumpulan data tertentu. Daftar diperbarui untuk menyertakan hanya wawasan yang terkait dengan kumpulan data ini.

  6. Untuk melihat statistik kumpulan data untuk kumpulan data, lakukan hal berikut.

    • Untuk melihat detail umum dan statistik tentang kumpulan data, seperti jumlah baris, pengguna unik, dan item unik dalam kumpulan data Interaksi, perluas bagian untuk kumpulan data.

    • Untuk melihat statistik terperinci untuk kolom, perluas bagian kumpulan data, pilih Statistik tingkat kolom dan pilih tombol radio untuk kolom.

  7. Perbaiki masalah apa pun dalam data Anda, impor lagi, dan jalankan analisis lain untuk memverifikasi. Untuk informasi selengkapnya tentang mengimpor data lagi, lihatMengimpor lebih banyak data pelatihan ke dalam kumpulan data.