Mendeteksi Bias Data Pra-pelatihan - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mendeteksi Bias Data Pra-pelatihan

Bias algoritmik, diskriminasi, keadilan, dan topik terkait telah dipelajari lintas disiplin ilmu seperti hukum, kebijakan, dan ilmu komputer. Sistem komputer dapat dianggap bias jika mendiskriminasi individu atau kelompok individu tertentu. Model pembelajaran mesin yang mendukung aplikasi ini belajar dari data dan data ini dapat mencerminkan disparitas atau bias inheren lainnya. Misalnya, data pelatihan mungkin tidak memiliki representasi yang cukup dari berbagai kelompok demografis atau mungkin berisi label bias. Model pembelajaran mesin yang dilatih pada kumpulan data yang menunjukkan bias ini akhirnya dapat mempelajarinya dan kemudian mereproduksi atau bahkan memperburuk bias tersebut dalam prediksi mereka. Bidang pembelajaran mesin memberikan kesempatan untuk mengatasi bias dengan mendeteksi dan mengukurnya pada setiap tahap siklus hidup ML. Anda dapat menggunakan Amazon SageMaker Clarify untuk menentukan apakah data yang digunakan untuk model pelatihan mengkodekan bias apa pun

Bias dapat diukur sebelum pelatihan dan setelah pelatihan, dan dipantau terhadap garis dasar setelah menerapkan model ke titik akhir untuk inferensi. Metrik bias pra-pelatihan dirancang untuk mendeteksi dan mengukur bias dalam data mentah sebelum digunakan untuk melatih model. Metrik yang digunakan adalah model-agnostik karena tidak bergantung pada keluaran model apa pun. Namun, ada konsep keadilan yang berbeda yang membutuhkan ukuran bias yang berbeda. Amazon SageMaker Clarify menyediakan metrik bias untuk mengukur berbagai kriteria keadilan.

Untuk informasi tambahan tentang metrik bias, lihat Pelajari Cara Amazon SageMaker Clarify Membantu Mendeteksi Pengukuran Bias dan Keadilan untuk Machine Learning in Finance.

Amazon SageMaker Klarifikasi Persyaratan untuk Bias dan Keadilan

SageMaker Clarify menggunakan terminologi berikut untuk membahas bias dan keadilan.

Fitur

Properti terukur individu atau karakteristik dari fenomena yang diamati, terkandung dalam kolom untuk data tabular.

Label

Fitur yang menjadi target untuk melatih model pembelajaran mesin. Disebut sebagai label yang diamati atau hasil yang diamati.

Label yang diprediksi

Label seperti yang diprediksi oleh model. Juga disebut sebagai hasil yang diprediksi.

Sampel

Entitas yang diamati dijelaskan oleh nilai fitur dan nilai label, yang terkandung dalam baris untuk data tabular.

Set data

Koleksi sampel.

Bias

Ketidakseimbangan dalam data pelatihan atau perilaku prediksi model di berbagai kelompok, seperti usia atau kelompok pendapatan. Bias dapat dihasilkan dari data atau algoritma yang digunakan untuk melatih model Anda. Misalnya, jika model ML dilatih terutama pada data dari individu paruh baya, mungkin kurang akurat ketika membuat prediksi yang melibatkan orang yang lebih muda dan lebih tua.

Metrik bias

Fungsi yang mengembalikan nilai numerik yang menunjukkan tingkat bias potensial.

Laporan bias

Kumpulan metrik bias untuk kumpulan data tertentu, atau kombinasi kumpulan data dan model.

Nilai label positif

Nilai label yang menguntungkan kelompok demografis yang diamati dalam sampel. Dengan kata lain, menunjuk sampel sebagai memiliki hasil positif.

Nilai label negatif

Nilai label yang tidak menguntungkan bagi kelompok demografis yang diamati dalam sampel. Dengan kata lain, menunjuk sampel sebagai memiliki hasil negatif.

Variabel grup

Kolom kategoris dari kumpulan data yang digunakan untuk membentuk subkelompok untuk pengukuran Disparitas Demografis Bersyarat (CDD). Diperlukan hanya untuk metrik ini sehubungan dengan paradoks Simpson.

Faset

Kolom atau fitur yang berisi atribut sehubungan dengan bias yang diukur.

Nilai segi

Nilai fitur atribut yang mungkin disukai atau tidak disukai oleh bias.

Probabilitas yang diprediksi

Probabilitas, seperti yang diprediksi oleh model, dari sampel yang memiliki hasil positif atau negatif.

Contoh Notebook

Amazon SageMaker Clarify menyediakan contoh notebook berikut untuk deteksi bias:

Notebook ini telah diverifikasi untuk berjalan di Amazon SageMaker Studio saja. Jika Anda memerlukan petunjuk tentang cara membuka notebook di Amazon SageMaker Studio, lihatMembuat atau Membuka Notebook Amazon SageMaker Studio Classic. Jika Anda diminta untuk memilih kernel, pilih Python 3 (Ilmu Data).