Memperkirakan kualitas pertandingan menggunakan skor kepercayaan pertandingan - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memperkirakan kualitas pertandingan menggunakan skor kepercayaan pertandingan

Skor kepercayaan kecocokan memberikan perkiraan kualitas kecocokan yang ditemukan oleh FindMatches untuk membedakan antara catatan yang cocok di mana model pembelajaran mesin sangat percaya diri, tidak pasti, atau tidak mungkin. Skor kepercayaan pertandingan akan berada di antara 0 dan 1, di mana skor yang lebih tinggi berarti kesamaan yang lebih tinggi. Memeriksa skor kepercayaan kecocokan memungkinkan Anda membedakan antara kelompok kecocokan di mana sistem sangat percaya diri (yang mungkin Anda putuskan untuk digabungkan), kelompok yang sistemnya tidak pasti (yang mungkin Anda putuskan untuk ditinjau oleh manusia), dan cluster yang dianggap tidak mungkin (yang mungkin Anda putuskan untuk ditolak).

Anda mungkin ingin menyesuaikan data latihan Anda dalam situasi di mana Anda melihat skor kepercayaan pertandingan yang tinggi, tetapi tentukan tidak ada pertandingan, atau di mana Anda melihat skor rendah tetapi tentukan ada, pada kenyataannya, pertandingan.

Skor kepercayaan sangat berguna ketika ada kumpulan data industri berukuran besar, di mana tidak mungkin untuk meninjau setiap keputusan. FindMatches

Skor kepercayaan pertandingan tersedia dalam AWS Glue versi 2.0 atau yang lebih baru.

Menghasilkan skor kepercayaan pertandingan

Anda dapat menghasilkan skor kepercayaan kecocokan dengan menyetel nilai Boolean computeMatchConfidenceScores ke True saat memanggil FindIncrementalMatches API FindMatches atau.

AWS Gluemenambahkan yang baru column match_confidence_score ke output.

Contoh penilaian pertandingan

Misalnya, pertimbangkan catatan yang cocok berikut ini:

Skor >= 0,9

Ringkasan catatan yang cocok:

primary_id | match_id | match_confidence_score 3281355037663 85899345947 0.9823658302132061 1546188247619 85899345947 0.9823658302132061

Rincian:

Sebuah contoh tabel rute dengan gateway internet.

Dari contoh ini, kita dapat melihat bahwa dua catatan sangat mirip dan berbagidisplay_position,primary_name, danstreet name.

Skor >= 0.8 dan skor <0.9

Ringkasan catatan yang cocok:

primary_id | match_id | match_confidence_score 309237680432 85899345928 0.8309852373674638 3590592666790 85899345928 0.8309852373674638 343597390617 85899345928 0.8309852373674638 249108124906 85899345928 0.8309852373674638 463856477937 85899345928 0.8309852373674638

Rincian:

Sebuah contoh tabel rute dengan gateway internet.

Dari contoh ini, kita dapat melihat bahwa catatan ini berbagi hal yang samaprimary_name, dancountry.

Skor >= 0.6 dan skor <0.7

Ringkasan catatan yang cocok:

primary_id | match_id | match_confidence_score 2164663519676 85899345930 0.6971099896480333 317827595278 85899345930 0.6971099896480333 472446424341 85899345930 0.6971099896480333 3118146262932 85899345930 0.6971099896480333 214748380804 85899345930 0.6971099896480333

Rincian:

Sebuah contoh tabel rute dengan gateway internet.

Dari contoh ini, kita dapat melihat bahwa catatan ini hanya berbagi hal yang samaprimary_name.

Untuk informasi selengkapnya, lihat: