Amazon SageMaker Klarifikasi Persyaratan untuk Bias dan Keadilan Contoh Notebook

Mendeteksi Bias Data Pra-pelatihan

Bias algoritmik, diskriminasi, keadilan, dan topik terkait telah dipelajari lintas disiplin ilmu seperti hukum, kebijakan, dan ilmu komputer. Sistem komputer dapat dianggap bias jika mendiskriminasi individu atau kelompok individu tertentu. Model pembelajaran mesin yang mendukung aplikasi ini belajar dari data dan data ini dapat mencerminkan disparitas atau bias inheren lainnya. Misalnya, data pelatihan mungkin tidak memiliki representasi yang cukup dari berbagai kelompok demografis atau mungkin berisi label bias. Model pembelajaran mesin yang dilatih pada kumpulan data yang menunjukkan bias ini akhirnya dapat mempelajarinya dan kemudian mereproduksi atau bahkan memperburuk bias tersebut dalam prediksi mereka. Bidang pembelajaran mesin memberikan kesempatan untuk mengatasi bias dengan mendeteksi dan mengukurnya pada setiap tahap siklus hidup ML. Anda dapat menggunakan Amazon SageMaker Clarify untuk menentukan apakah data yang digunakan untuk model pelatihan mengkodekan bias apa pun

Bias dapat diukur sebelum pelatihan dan setelah pelatihan, dan dipantau terhadap garis dasar setelah menerapkan model ke titik akhir untuk inferensi. Metrik bias pra-pelatihan dirancang untuk mendeteksi dan mengukur bias dalam data mentah sebelum digunakan untuk melatih model. Metrik yang digunakan adalah model-agnostik karena tidak bergantung pada keluaran model apa pun. Namun, ada konsep keadilan yang berbeda yang membutuhkan ukuran bias yang berbeda. Amazon SageMaker Clarify menyediakan metrik bias untuk mengukur berbagai kriteria keadilan.

Untuk informasi tambahan tentang metrik bias, lihat Pelajari Cara Amazon SageMaker Clarify Membantu Mendeteksi Pengukuran Bias dan Keadilan untuk Machine Learning in Finance.

Amazon SageMaker Klarifikasi Persyaratan untuk Bias dan Keadilan

SageMaker Clarify menggunakan terminologi berikut untuk membahas bias dan keadilan.

Fitur: Properti terukur individu atau karakteristik dari fenomena yang diamati, terkandung dalam kolom untuk data tabular.
Label: Fitur yang menjadi target untuk melatih model pembelajaran mesin. Disebut sebagai label yang diamati atau hasil yang diamati.
Label yang diprediksi: Label seperti yang diprediksi oleh model. Juga disebut sebagai hasil yang diprediksi.
Sampel: Entitas yang diamati dijelaskan oleh nilai fitur dan nilai label, yang terkandung dalam baris untuk data tabular.
Set data: Koleksi sampel.
Bias: Ketidakseimbangan dalam data pelatihan atau perilaku prediksi model di berbagai kelompok, seperti usia atau kelompok pendapatan. Bias dapat dihasilkan dari data atau algoritma yang digunakan untuk melatih model Anda. Misalnya, jika model ML dilatih terutama pada data dari individu paruh baya, mungkin kurang akurat ketika membuat prediksi yang melibatkan orang yang lebih muda dan lebih tua.
Metrik bias: Fungsi yang mengembalikan nilai numerik yang menunjukkan tingkat bias potensial.
Laporan bias: Kumpulan metrik bias untuk kumpulan data tertentu, atau kombinasi kumpulan data dan model.
Nilai label positif: Nilai label yang menguntungkan kelompok demografis yang diamati dalam sampel. Dengan kata lain, menunjuk sampel sebagai memiliki hasil positif.
Nilai label negatif: Nilai label yang tidak menguntungkan bagi kelompok demografis yang diamati dalam sampel. Dengan kata lain, menunjuk sampel sebagai memiliki hasil negatif.
Variabel grup: Kolom kategoris dari kumpulan data yang digunakan untuk membentuk subkelompok untuk pengukuran Disparitas Demografis Bersyarat (CDD). Diperlukan hanya untuk metrik ini sehubungan dengan paradoks Simpson.
Faset: Kolom atau fitur yang berisi atribut sehubungan dengan bias yang diukur.
Nilai segi: Nilai fitur atribut yang mungkin disukai atau tidak disukai oleh bias.
Probabilitas yang diprediksi: Probabilitas, seperti yang diprediksi oleh model, dari sampel yang memiliki hasil positif atau negatif.

Contoh Notebook

Amazon SageMaker Clarify menyediakan contoh notebook berikut untuk deteksi bias:

Penjelasan dan deteksi bias dengan Amazon SageMaker Clarify — Gunakan SageMaker Clarify untuk membuat pekerjaan pemrosesan untuk mendeteksi bias dan menjelaskan prediksi model dengan atribusi fitur.

Notebook ini telah diverifikasi untuk berjalan di Amazon SageMaker Studio saja. Jika Anda memerlukan petunjuk tentang cara membuka notebook di Amazon SageMaker Studio, lihatMembuat atau Membuka Notebook Amazon SageMaker Studio Classic. Jika Anda diminta untuk memilih kernel, pilih Python 3 (Ilmu Data).

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Memecahkan Masalah Pekerjaan

Ukur Bias Pra-pelatihan