Mengajarkan transformasi Find Matches - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengajarkan transformasi Find Matches

Setiap transformasi FindMatches harus diajari apa yang harus dianggap kecocokan dan apa yang seharusnya tidak dianggap sebagai kecocokan. Anda mengajarkan transformasi Anda dengan menambahkan label ke sebuah file dan mengunggah pilihan Anda ke AWS Glue.

Anda dapat mengatur pelabelan ini pada konsol AWS Glue atau menggunakan operasi API machine learning AWS Glue.

Berapa kali saya harus menambahkan label? Berapa banyak label yang saya butuhkan?

Jawaban atas pertanyaan-pertanyaan ini sebagian besar terserah Anda. Anda harus mengevaluasi apakah FindMatches memberikan tingkat akurasi yang Anda butuhkan dan apakah menurut Anda upaya melakukan pelabelan ekstra sepadan untuk Anda. Cara terbaik untuk memutuskan hal ini adalah dengan melihat metrik “Precision,” “Recall,” dan “Area di bawah kurva precision-recall” yang dapat Anda hasilkan saat Anda memilih Estimasi kualitas pada konsol AWS Glue. Setelah Anda memberikan label pada kumpulan tugas lainnya, jalankan kembali metrik ini dan verifikasi apakah telah ada peningkatan. Jika, setelah memberikan label pada beberapa kumpulan tugas tersebut, Anda tidak melihat peningkatan pada metrik yang Anda fokuskan, maka kualitas transformasi mungkin telah mencapai kualitas tertingginya.

Mengapa label positif dan negatif sejati dibutuhkan?

Transformasi FindMatches membutuhkan contoh baik positif dan negatif untuk mempelajari apa yang menurut Anda adalah sebuah kecocokan. Jika Anda melabeli data pelatihan yang dihasilkan oleh FindMatches (sebagai contoh, menggunakan opsi Saya tidak memiliki label), maka FindMatches mencoba untuk menghasilkan satu set “label set id” untuk Anda. Dalam setiap tugas, Anda memberikan “label” yang sama untuk beberapa catatan dan “label” yang berbeda untuk catatan lain. Dengan kata lain, tugas secara umum adalah tidak semua sama atau semua berbeda (tapi tidak apa-apa jika tugas tertentu adalah semua “sama” atau semua “tidak sama”).

Jika Anda mengajari transformasi FindMatches Anda menggunakan opsi Unggah label dari S3, coba untuk menyertakan kedua contoh kecocokan dan ketidakcocokan. Hanya memiliki satu jenis saja bisa diterima. Label ini membantu Anda membangun transformasi FindMatches yang lebih akurat, tetapi Anda masih perlu memberikan label pada beberapa catatan yang Anda hasilkan dengan menggunakan opsi Buat file pelabelan.

Bagaimana saya bisa menegakkan bahwa transformasi cocok persis seperti yang saya ajarkan?

Transformasi FindMatches belajar dari label yang Anda berikan, sehingga dapat menghasilkan pasangan catatan yang tidak mematuhi label yang disediakan. Untuk menegakkan bahwa FindMatches transformasi menghormati label Anda, pilih EnforceProvidedLabelsdi. FindMatchesParameter

Teknik apa yang dapat Anda gunakan ketika transformasi MLmengidentifikasi item sebagai kecocokan yang bukan kecocokan sejati?

Anda dapat menggunakan teknik berikut:

  • Meningkatkan precisionRecallTradeoff ke nilai yang lebih tinggi. Hal ini pada akhirnya akan menghasilkan lebih sedikit kecocokan, tetapi juga harus memecah klaster besar Anda ketika mencapai nilai yang cukup tinggi.

  • Ambil baris output yang sesuai dengan hasil yang salah dan lakukan format ulang padanya sebagai set pelabelan (menghapus kolom match_id dan menambahkan kolom labeling_set_id dan label). Jika perlu, pecah (bagi) menjadi beberapa set pelabelan untuk memastikan bahwa pemberi label dapat mengingat setiap label saat menetapkan label. Kemudian, beri label dengan benar pada set yang cocok dan unggah file label dan tambahkan ke label yang ada. Hal ini mungkin akan cukup mengajarkan transformasi Anda tentang apa yang dicari untuk memahami polanya.

  • (Lanjutan) Akhirnya, lihat data tersebut untuk melihat apakah ada pola yang dapat Anda deteksi yang tidak diperhatikan oleh sistem tersebut. Lakukan pra-proses pada data tersebut dengan menggunakan fungsi AWS Glue standar untuk menormalkan data. Sorot apa yang ingin Anda pelajari dari algoritme dengan memisahkan data yang Anda ketahui sebagai hal penting yang berbeda ke dalam kolom tersendiri. Atau bangun kolom gabungan dari kolom yang data-nya Anda ketahui sebagai data terkait.