Valori Shapley asimmetrici - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Valori Shapley asimmetrici

La soluzione esplicativa del modello di previsione delle serie temporali SageMaker Clarify è un metodo di attribuzione delle funzionalità radicato nella teoria dei giochi cooperativi, simile nello spirito a. SHAP In particolare, Clarify utilizza valori di gruppi di ordini casuali, noti anche come valori Shapley asimmetrici nell'apprendimento automatico e nella spiegabilità.

Contesto

L'obiettivo è calcolare le attribuzioni per le funzionalità di input a un determinato modello di previsione f. Il modello di previsione utilizza i seguenti input:

  • Serie temporali passate (obiettivo TS). Ad esempio, potrebbero trattarsi dei passeggeri ferroviari passati ogni giorno sulla tratta Parigi-Berlino, indicati con x. t

  • (Facoltativo) Una serie temporale covariata. Ad esempio, potrebbero trattarsi di festività e dati meteorologici, indicati con z t R S. Se utilizzato, covariate TS potrebbe essere disponibile solo per le fasi temporali passate o anche per quelle future (incluse nel calendario delle festività).

  • (Facoltativo) Covariate statiche, come la qualità del servizio (come 1a o 2a classe), indicate con u R E.

Le covariate statiche, le covariate dinamiche o entrambe possono essere omesse, a seconda dello scenario applicativo specifico. Dato un orizzonte di previsione K ≥ 0 (ad esempio K=30 giorni), la previsione del modello può essere caratterizzata dalla formula: f (x, z, u) = x. [1:T] [1:T+K] [T+1:T +K+1]

Il diagramma seguente mostra una struttura di dipendenza per un modello di previsione tipico. La previsione al momento t+1 dipende dai tre tipi di input menzionati in precedenza.

Struttura delle dipendenze per un modello di previsione tipico.

Metodo

Le spiegazioni vengono calcolate interrogando il modello delle serie temporali f su una serie di punti derivati dall'input originale. Seguendo le costruzioni della teoria dei giochi, Clarify calcola la media delle differenze nelle previsioni dovute all'offuscamento (ovvero all'impostazione di un valore di base) di parti degli input in modo iterativo. La struttura temporale può essere navigata in ordine cronologico o anticronologico o in entrambi. Le spiegazioni cronologiche vengono create aggiungendo iterativamente informazioni dalla prima fase temporale, mentre sono anticronologiche dall'ultima fase. Quest'ultima modalità può essere più appropriata in presenza di tendenze orientate alla tendenza attuale, ad esempio nella previsione dei prezzi delle azioni. Una proprietà importante delle spiegazioni calcolate è che si sommano all'output del modello originale se il modello fornisce risultati deterministici.

Attribuzioni risultanti

Le attribuzioni risultanti sono punteggi che contrassegnano i contributi individuali di specifiche fasi temporali o funzionalità di input alla previsione finale in ogni fase temporale prevista. Clarify offre le seguenti due granularità per le spiegazioni:

  • Le spiegazioni temporali sono poco costose e forniscono solo informazioni su fasi temporali specifiche, ad esempio in che misura le informazioni del 19° giorno in passato hanno contribuito alla previsione del primo giorno nel futuro. Queste attribuzioni non spiegano singolarmente le covariate statiche e le spiegazioni aggregate delle serie temporali target e covariate. Le attribuzioni sono una matrice A in cui ogni A tk è l'attribuzione della fase temporale t alla previsione della fase temporale t+K. Nota che se il modello accetta covariate future, t può essere maggiore di T.

  • Le spiegazioni dettagliate richiedono un uso più intensivo dal punto di vista computazionale e forniscono una suddivisione completa di tutte le attribuzioni delle variabili di input.

    Nota

    Le spiegazioni dettagliate supportano solo l'ordine cronologico.

    Le attribuzioni risultanti sono una tripletta composta da quanto segue:

    • Matrice A x R T×K relativa alla serie temporale di input, dove A tk x è l'attribuzione di x alla fase di previsione tT+k

    • Tensore A z R T+K×S×K relativo alla serie temporale covariata, dove A z è l'attribuzione di tskz (cioè la covariata sth TS) alla fase di previsione T+k ts​

    • Matrice A u R E×K relativa alle covariate statiche, dove A ek u è l'attribuzione di u e (la covariata statica eth) alla fase di previsione T+k

Indipendentemente dalla granularità, la spiegazione contiene anche un vettore di offset B R K che rappresenta il «comportamento di base» del modello quando tutti i dati sono offuscati.