Memutuskan Antara Akurasi dan Biaya - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memutuskan Antara Akurasi dan Biaya

Setiap transformasi FindMatches berisi sebuah parameter accuracy-cost. Anda dapat menggunakan parameter tersebut untuk menentukan salah satu hal berikut ini:

  • Jika Anda lebih peduli dengan transformasi yang secara akurat melaporkan bahwa dua catatan cocok, maka Anda harus menekankan pada accuracy.

  • Jika Anda lebih peduli dengan biaya atau kecepatan menjalankan transformasi, maka Anda harus menekankan pada biaya lebih rendah.

Anda dapat melakukan trade-off ini di konsol AWS Glue atau menggunakan operasi API machine learning AWS Glue.

Kapan harus mendukung akurasi

Dukung accuracy jika Anda lebih peduli tentang risiko yang diakibatkan find matches jika hasilnya tidak akan berisi kecocokan. Untuk mendukung accuracy, pilih nilai trade-off accuracy-cost yang lebih tinggi. Dengan nilai yang lebih tinggi, transformasi FindMatches memerlukan lebih banyak waktu untuk melakukan pencarian yang lebih menyeluruh untuk melakukan pencocokan catatan dengan benar. Perhatikan bahwa parameter ini tidak mengurangi kemungkinan keliru memanggil pasangan catatan yang tidak cocok sebagai pasangan yang cocok. Transformasi disetel untuk bias ke arah menghabiskan lebih banyak waktu untuk menemukan kecocokan.

Kapan harus mendukung biaya

Dukung cost jika Anda lebih peduli tentang biaya menjalankan transformasi find matches dan kurang peduli tentang berapa banyak kecocokan yang ditemukan. Untuk mendukung cost, pilih nilai trade-off dari accuracy-cost yang lebih rendah. Dengan nilai yang lebih rendah, transformasi FindMatches memerlukan lebih sedikit sumber daya untuk dijalankan. Transformasi disetel untuk bias ke arah menemukan kecocokan lebih sedikit. Jika hasilnya dapat diterima ketika mendukung biaya yang lebih rendah, gunakan pengaturan ini.

Bagaimana mendukung akurasi dan biaya yang lebih rendah

Dibutuhkan lebih banyak waktu mesin untuk memeriksa lebih banyak pasangan catatan untuk menentukan apakah mereka mungkin pasangan yang cocok. Jika Anda ingin mengurangi biaya tanpa mengurangi kualitas, berikut adalah beberapa langkah yang dapat Anda lakukan:

  • Hilangkan catatan di sumber data yang tidak Anda pedulikan dalam pencocokan.

  • Hilangkan kolom dari sumber data yang Anda yakin tidak berguna untuk membuat keputusan kecocokan/ketidakcocokan. Cara yang baik untuk memutuskan ini adalah dengan menghilangkan kolom yang menurut Anda tidak mempengaruhi keputusan Anda sendiri tentang apakah satu set catatan adalah “sama.”