Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Dataset sintetis
SageMaker Clarify menggunakan SHAP algoritma Kernel. Diberikan catatan (juga disebut sampel atau instance) dan SHAP konfigurasi, penjelasan pertama-tama menghasilkan dataset sintetis. SageMaker Klarifikasi kemudian kueri wadah model untuk prediksi kumpulan data, lalu hitung dan kembalikan atribusi fitur. Ukuran kumpulan data sintetis memengaruhi runtime untuk penjelasan Clarify. Kumpulan data sintetis yang lebih besar membutuhkan lebih banyak waktu untuk mendapatkan prediksi model daripada yang lebih kecil.
Ukuran dataset sintetis ditentukan oleh rumus berikut:
Synthetic dataset size = SHAP baseline size * n_samples
Ukuran SHAP dasar adalah jumlah catatan dalam data SHAP dasar. Informasi ini diambil dariShapBaselineConfig
.
Ukuran n_samples
diatur oleh parameter NumberOfSamples
dalam konfigurasi explainer dan jumlah fitur. Jika jumlah fitur adalahn_features
, maka n_samples
adalah sebagai berikut:
n_samples = MIN(NumberOfSamples, 2^n_features - 2)
Berikut ini menunjukkan n_samples
jika NumberOfSamples
tidak disediakan.
n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)
Misalnya, catatan tabular dengan 10 fitur memiliki ukuran SHAP dasar 1. Jika tidak NumberOfSamples
disediakan, dataset sintetis berisi 1022 catatan. Jika catatan memiliki 20 fitur, dataset sintetis berisi 2088 catatan.
Untuk NLP masalah, n_features
sama dengan jumlah fitur non-teks ditambah jumlah unit teks.
catatan
Ini InvokeEndpoint
API memiliki batas batas waktu permintaan. Jika kumpulan data sintetis terlalu besar, penjelasan mungkin tidak dapat menyelesaikan perhitungan dalam batas ini. Jika perlu, gunakan informasi sebelumnya untuk memahami dan mengurangi ukuran SHAP dasar dan. NumberOfSamples
Jika wadah model Anda diatur untuk menangani permintaan batch, maka Anda juga dapat menyesuaikan nilaiMaxRecordCount
.