Pentingnya variabel model - Amazon Fraud Detector

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pentingnya variabel model

Kepentingan variabel model adalah fitur Amazon Fraud Detector yang memberi peringkat variabel model dalam versi model. Setiap variabel model diberikan nilai berdasarkan kepentingan relatifnya terhadap kinerja keseluruhan model Anda. Variabel model dengan nilai tertinggi lebih penting bagi model daripada variabel model lain dalam kumpulan data untuk versi model tersebut, dan terdaftar di bagian atas secara default. Demikian juga, variabel model dengan nilai terendah terdaftar di bagian bawah secara default dan paling tidak penting dibandingkan dengan variabel model lainnya. Dengan menggunakan nilai kepentingan variabel model, Anda dapat memperoleh wawasan tentang input apa yang mendorong kinerja model Anda.

Anda dapat melihat nilai kepentingan variabel model untuk versi model terlatih di konsol Amazon Fraud Detector atau dengan menggunakan DescribeModelVersionAPI.

Kepentingan variabel model memberikan serangkaian nilai berikut untuk setiap Variabel yang digunakan untuk melatih Versi Model.

  • Jenis Variabel: Jenis variabel (misalnya, alamat IP atau Email). Untuk informasi selengkapnya, lihat Jenis variabel. Untuk model Account Takeover Insights (ATI), Amazon Fraud Detector memberikan nilai kepentingan variabel untuk tipe variabel mentah dan agregat. Jenis variabel mentah ditugaskan ke variabel yang Anda berikan. Jenis variabel agregat ditetapkan ke satu set variabel mentah yang telah digabungkan oleh Amazon Fraud Detector untuk menghitung nilai kepentingan agregat.

  • Nama Variabel: Nama variabel peristiwa yang digunakan untuk melatih versi model (misalnya,ip_address,email_address,are_creadentials_valid). Untuk tipe variabel agregat, nama semua variabel yang digunakan untuk menghitung nilai kepentingan variabel agregat dicantumkan.

  • Nilai Pentingnya Variabel: Angka yang mewakili kepentingan relatif dari variabel mentah atau agregat terhadap kinerja model. Kisaran tipikal: 0—10

Di konsol Amazon Fraud Detector, nilai kepentingan variabel model ditampilkan sebagai berikut untuk model Online Fraud Insights (OFI) atau Transaction Fraud Insights (TFI). Model Account Takeover Insight (ATI) akan memberikan nilai kepentingan variabel agregat selain nilai kepentingan variabel mentah. Bagan visual memudahkan untuk melihat kepentingan relatif antara variabel dengan garis putus-putus vertikal yang memberikan referensi ke nilai kepentingan variabel peringkat tertinggi.

Bagan kepentingan variabel model.

Amazon Fraud Detector menghasilkan nilai kepentingan variabel untuk setiap versi model Fraud Detector tanpa biaya tambahan.

penting

Versi model yang dibuat sebelum 9 Juli 2021 tidak memiliki nilai kepentingan variabel. Anda harus melatih versi baru model Anda untuk menghasilkan nilai kepentingan variabel model.

Menggunakan nilai kepentingan variabel model

Anda dapat menggunakan nilai kepentingan variabel model untuk mendapatkan wawasan tentang apa yang mendorong kinerja model Anda naik atau turun dan variabel mana yang paling berkontribusi. Dan kemudian tweak model Anda untuk meningkatkan kinerja secara keseluruhan.

Lebih khusus lagi, untuk meningkatkan kinerja model Anda, periksa nilai kepentingan variabel terhadap pengetahuan domain Anda dan masalah debug dalam data pelatihan. Misalnya, jika ID Akun digunakan sebagai masukan ke model dan terdaftar di bagian atas, lihat nilai kepentingan variabelnya. Jika nilai kepentingan variabel secara signifikan lebih tinggi daripada nilai lainnya, maka model Anda mungkin terlalu sesuai dengan pola penipuan tertentu (misalnya, semua peristiwa penipuan berasal dari ID Akun yang sama). Namun, mungkin juga terjadi kebocoran label jika variabel tergantung pada label penipuan. Bergantung pada hasil analisis Anda berdasarkan pengetahuan domain Anda, Anda mungkin ingin menghapus variabel dan melatih dengan kumpulan data yang lebih beragam, atau mempertahankan model apa adanya.

Demikian pula, lihat variabel peringkat terakhir. Jika nilai kepentingan variabel secara signifikan lebih rendah daripada nilai lainnya, maka variabel model ini mungkin tidak penting dalam melatih model Anda. Anda dapat mempertimbangkan untuk menghapus variabel untuk melatih versi model yang lebih sederhana. Jika model Anda memiliki beberapa variabel, seperti hanya dua variabel, Amazon Fraud Detector masih memberikan nilai kepentingan variabel dan memberi peringkat variabel. Namun, wawasan dalam hal ini akan terbatas.

penting
  1. Jika Anda melihat variabel yang hilang dalam bagan kepentingan variabel Model, itu mungkin karena salah satu alasan berikut. Pertimbangkan untuk memodifikasi variabel dalam kumpulan data Anda dan latih kembali model Anda.

    • Hitungan nilai unik untuk variabel dalam kumpulan data pelatihan lebih rendah dari 100.

    • Lebih besar dari 0,9 nilai untuk variabel hilang dari kumpulan data pelatihan.

  2. Anda perlu melatih versi model baru setiap kali Anda ingin menyesuaikan variabel input model Anda.

Mengevaluasi nilai kepentingan variabel model

Kami menyarankan Anda mempertimbangkan hal berikut ketika Anda mengevaluasi nilai kepentingan variabel model:

  • Nilai kepentingan variabel harus selalu dievaluasi dalam kombinasi dengan pengetahuan domain.

  • Periksa nilai kepentingan variabel dari variabel relatif terhadap nilai kepentingan variabel dari variabel lain dalam versi model. Jangan mempertimbangkan nilai kepentingan variabel untuk satu variabel secara independen.

  • Bandingkan nilai kepentingan variabel dari variabel dalam versi model yang sama. Jangan membandingkan nilai kepentingan variabel dari variabel yang sama di seluruh versi model karena nilai kepentingan variabel variabel dalam versi model mungkin berbeda dari nilai variabel yang sama dalam versi model yang berbeda. Jika Anda menggunakan variabel dan kumpulan data yang sama untuk melatih versi model yang berbeda, ini tidak selalu menghasilkan nilai kepentingan variabel yang sama.

Melihat peringkat kepentingan variabel model

Setelah pelatihan model selesai, Anda dapat melihat peringkat kepentingan variabel model dari versi model terlatih Anda di konsol Amazon Fraud Detector atau dengan menggunakan DescribeModelVersionAPI.

Untuk melihat peringkat kepentingan variabel model menggunakan konsol,
  1. Buka AWS Konsol dan masuk ke akun Anda. Arahkan ke Amazon Fraud Detector.

  2. Di panel navigasi kiri, pilih Model.

  3. Pilih model Anda dan kemudian versi model Anda.

  4. Pastikan bahwa tab Ikhtisar dipilih.

  5. Gulir ke bawah untuk melihat panel kepentingan variabel Model.

Memahami bagaimana nilai kepentingan variabel model dihitung

Setelah menyelesaikan setiap pelatihan versi model, Amazon Fraud Detector secara otomatis menghasilkan nilai kepentingan variabel model dan metrik kinerja model. Untuk ini, Amazon Fraud Detector menggunakan Shapley Additive Explanations (SHAP). SHAP pada dasarnya adalah kontribusi rata-rata yang diharapkan dari variabel model setelah semua kemungkinan kombinasi dari semua variabel model telah dipertimbangkan.

SHAP pertama-tama memberikan kontribusi dari setiap variabel model untuk prediksi suatu peristiwa. Kemudian, ia mengumpulkan prediksi ini untuk membuat peringkat variabel di tingkat model. Untuk menetapkan kontribusi dari setiap variabel model untuk prediksi, SHAP mempertimbangkan perbedaan dalam output model di antara semua kemungkinan kombinasi variabel. Dengan memasukkan semua kemungkinan termasuk atau menghapus set variabel tertentu untuk menghasilkan output model, SHAP dapat secara akurat mengakses pentingnya setiap variabel model. Ini sangat penting ketika variabel model sangat berkorelasi satu sama lain.

Model ML, dalam banyak kasus, tidak memungkinkan Anda untuk menghapus variabel. Sebagai gantinya, Anda dapat mengganti variabel yang dihapus atau hilang dalam model dengan nilai variabel yang sesuai dari satu atau lebih garis dasar (misalnya, peristiwa non-penipuan). Memilih instance dasar yang tepat bisa jadi sulit, tetapi Amazon Fraud Detector mempermudah hal ini dengan menetapkan baseline ini sebagai rata-rata populasi untuk Anda.