Dataset sintetis - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Dataset sintetis

SageMaker Clarify menggunakan SHAP algoritma Kernel. Diberikan catatan (juga disebut sampel atau instance) dan SHAP konfigurasi, penjelasan pertama-tama menghasilkan dataset sintetis. SageMaker Klarifikasi kemudian kueri wadah model untuk prediksi kumpulan data, lalu hitung dan kembalikan atribusi fitur. Ukuran kumpulan data sintetis memengaruhi runtime untuk penjelasan Clarify. Kumpulan data sintetis yang lebih besar membutuhkan lebih banyak waktu untuk mendapatkan prediksi model daripada yang lebih kecil.

Ukuran dataset sintetis ditentukan oleh rumus berikut:

Synthetic dataset size = SHAP baseline size * n_samples

Ukuran SHAP dasar adalah jumlah catatan dalam data SHAP dasar. Informasi ini diambil dariShapBaselineConfig.

Ukuran n_samples diatur oleh parameter NumberOfSamples dalam konfigurasi explainer dan jumlah fitur. Jika jumlah fitur adalahn_features, maka n_samples adalah sebagai berikut:

n_samples = MIN(NumberOfSamples, 2^n_features - 2)

Berikut ini menunjukkan n_samples jika NumberOfSamples tidak disediakan.

n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)

Misalnya, catatan tabular dengan 10 fitur memiliki ukuran SHAP dasar 1. Jika tidak NumberOfSamples disediakan, dataset sintetis berisi 1022 catatan. Jika catatan memiliki 20 fitur, dataset sintetis berisi 2088 catatan.

Untuk NLP masalah, n_features sama dengan jumlah fitur non-teks ditambah jumlah unit teks.

catatan

Ini InvokeEndpoint API memiliki batas batas waktu permintaan. Jika kumpulan data sintetis terlalu besar, penjelasan mungkin tidak dapat menyelesaikan perhitungan dalam batas ini. Jika perlu, gunakan informasi sebelumnya untuk memahami dan mengurangi ukuran SHAP dasar dan. NumberOfSamples Jika wadah model Anda diatur untuk menangani permintaan batch, maka Anda juga dapat menyesuaikan nilaiMaxRecordCount.