Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Set di dati sintetici
SageMaker Clarify utilizza l'algoritmo Kernel SHAP. Dato un record (chiamato anche campione o istanza) e la configurazione SHAP, l'esplicatore genera innanzitutto un set di dati sintetico. SageMaker Clarify quindi interroga il contenitore del modello per le previsioni del set di dati, quindi calcola e restituisce le attribuzioni delle funzionalità. La dimensione del set di dati sintetico influisce sul tempo di esecuzione dello strumento esplicativo Clarify. I set di dati sintetici più grandi richiedono più tempo per ottenere previsioni dei modelli rispetto a quelli più piccoli.
La dimensione del set di dati sintetici è determinata dalla formula seguente:
Synthetic dataset size = SHAP baseline size * n_samples
La dimensione della linea di base SHAP è il numero di record nei dati di base SHAP. Queste informazioni sono tratte da ShapBaselineConfig
.
La dimensione di n_samples
è impostata dal parametro NumberOfSamples
nella configurazione dello strumento esplicativo e dal numero di caratteristiche. Se il numero di caratteristiche è n_features
, allora n_samples
è il seguente:
n_samples = MIN(NumberOfSamples, 2^n_features - 2)
Quanto segue mostra n_samples
se NumberOfSamples
non è fornito.
n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)
Ad esempio, un record tabulare con 10 caratteristiche ha una dimensione di base SHAP pari a 1. Se NumberOfSamples
non viene fornito, il set di dati sintetico contiene 1.022 record. Se il record ha 20 caratteristiche, il set di dati sintetico contiene 2.088 record.
Per i problemi di PNL, n_features
è uguale al numero di caratteristiche non testuali più il numero di unità di testo.
Nota
L'API InvokeEndpoint
ha un limite di timeout per le richieste. Se il set di dati sintetici è troppo grande, lo strumento esplicativo potrebbe non essere in grado di completare il calcolo entro questo limite. Se necessario, utilizza le informazioni precedenti per comprendere e ridurre la dimensione di base SHAP e NumberOfSamples
. Se il container del modello è configurato per gestire le richieste batch, puoi anche modificare il valore di MaxRecordCount
.