Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
AWS Clean Rooms Metrik evaluasi model ML
Clean Rooms MLmenghitung skor recall dan relevansi untuk menentukan seberapa baik kinerja model Anda. Recall membandingkan kesamaan antara data mirip dan data pelatihan. Skor relevansi digunakan untuk memutuskan seberapa besar audiens seharusnya, bukan apakah model tersebut berkinerja baik.
Ingat adalah ukuran yang tidak bias tentang seberapa mirip segmen yang mirip dengan data pelatihan. Recall adalah persentase pengguna yang paling mirip (secara default, 20% paling mirip) dari sampel data pelatihan yang disertakan dalam audiens benih oleh pekerjaan pembuatan audiens. Nilai berkisar dari 0—1. Nilai yang lebih besar menunjukkan audiens yang lebih baik. Nilai recall kira-kira sama dengan persentase bin maksimum menunjukkan bahwa model audiens setara dengan pemilihan acak.
Kami menganggap ini sebagai metrik evaluasi yang lebih baik daripada akurasi, presisi, dan skor F1 karena Clean Rooms MLtidak secara akurat memberi label pengguna negatif sejati saat membangun modelnya.
Skor relevansi tingkat segmen adalah ukuran kesamaan dengan nilai mulai dari -1 (paling tidak mirip) hingga 1 (paling mirip). Clean Rooms MLmenghitung serangkaian skor relevansi untuk berbagai ukuran segmen untuk membantu Anda menentukan ukuran segmen terbaik untuk data Anda. Skor relevansi menurun secara monoton seiring bertambahnya ukuran segmen; oleh karena itu, seiring bertambahnya ukuran segmen, itu bisa kurang mirip dengan data benih. Ketika skor relevansi tingkat segmen mencapai 0, model memprediksi bahwa semua pengguna di segmen mirip berasal dari distribusi yang sama dengan data benih. Meningkatkan ukuran output kemungkinan akan menyertakan pengguna di segmen mirip yang tidak berasal dari distribusi yang sama dengan data benih.
Skor relevansi dinormalisasi dalam satu kampanye dan tidak boleh digunakan untuk membandingkan di seluruh kampanye. Skor relevansi tidak boleh digunakan sebagai bukti bersumber tunggal untuk hasil bisnis apa pun. Ini karena mereka dipengaruhi oleh beberapa faktor kompleks selain relevansi, seperti kualitas inventaris, jenis inventaris, dan waktu iklan.
Skor relevansi tidak boleh digunakan untuk menilai kualitas benih, melainkan jika dapat ditingkatkan atau diturunkan. Pertimbangkan contoh berikut:
-
Semua skor positif — Ini menunjukkan bahwa ada lebih banyak pengguna keluaran yang diprediksi serupa daripada yang termasuk dalam segmen mirip. Ini umum untuk data benih yang merupakan bagian dari pasar besar, seperti semua orang yang telah membeli pasta gigi dalam sebulan terakhir. Kami merekomendasikan untuk melihat data benih yang lebih kecil, seperti semua orang yang telah membeli pasta gigi lebih dari sekali dalam sebulan terakhir.
-
Semua skor negatif atau negatif untuk ukuran segmen mirip yang Anda inginkan — Ini menunjukkan bahwa Clean Rooms MS memprediksi tidak ada cukup pengguna serupa dalam ukuran segmen mirip yang diinginkan. Ini bisa jadi karena data benih terlalu spesifik atau pasarnya terlalu kecil. Kami merekomendasikan untuk menerapkan lebih sedikit filter ke data benih atau memperluas pasar. Misalnya, jika data benih asli adalah pelanggan yang membeli kereta dorong dan kursi mobil, Anda dapat memperluas pasar ke pelanggan yang membeli beberapa produk bayi.
Penyedia data pelatihan menentukan apakah skor relevansi diekspos dan keranjang tempat skor relevansi dihitung.