Valores asimétricos de Shapley - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Valores asimétricos de Shapley

La solución SageMaker explicativa del modelo de pronóstico de series temporales de Clarify es un método de atribución de características basado en la teoría de juegos cooperativos, similar en espíritu al SHAP. En concreto, Clarify utiliza valores de grupos de orden aleatorio, también conocidos como valores asimétricos de Shapley, en el ámbito del aprendizaje automático y la explicabilidad.

Introducción

El objetivo es calcular las atribuciones de las entidades de entrada a un modelo de pronóstico determinado f. El modelo de pronóstico toma las siguientes entradas:

  • Series temporales pasadas (objetivo TS). Por ejemplo, podrían ser pasajeros del tren que hayan pasado el día a día en la ruta París-Berlín, denotados con una x. t

  • (Opcional) Una serie temporal covariable. Por ejemplo, podrían ser datos meteorológicos y de festividades, denotados por z t ※R S. Cuando se usa, la covariable TS podría estar disponible solo para los pasos pasados o también para los futuros (incluidos en el calendario festivo).

  • (Opcional) Covariables estáticas, como la calidad del servicio (por ejemplo, de primera o segunda clase), denotadas por u ≤ R E.

Se pueden omitir las covariables estáticas, las covariables dinámicas o ambas, según el escenario de aplicación específico. Dado un horizonte de predicción K ≥ 0 (por ejemplo, K=30 días), la predicción del modelo se puede caracterizar mediante la fórmula: f (x[1:T], z, u) = x. [1:T+K] [T+1:T +K+1]

El siguiente diagrama muestra la estructura de dependencias de un modelo de pronóstico típico. La predicción en el tiempo t+1 depende de los tres tipos de entradas mencionados anteriormente.

Estructura de dependencias para un modelo de pronóstico típico.

Método

Las explicaciones se calculan consultando el modelo de series temporales f en una serie de puntos derivados de la entrada original. Siguiendo las teorías de juegos, Clarify promedia las diferencias en las predicciones mediante la ocultación (es decir, el ajuste a un valor de referencia) de partes de las entradas de forma iterativa. Se puede navegar por la estructura temporal en orden cronológico o anticronológico, o en ambos. Las explicaciones cronológicas se construyen agregando información iterativamente desde el primer paso de tiempo, mientras que las anticronológicas desde el último paso. Este último modo puede ser más apropiado en presencia de un sesgo reciente, como cuando se pronostican los precios de las acciones. Una propiedad importante de las explicaciones calculadas es que se suman al resultado del modelo original si el modelo proporciona resultados deterministas.

Atribuciones resultantes

Las atribuciones resultantes son puntuaciones que marcan las contribuciones individuales de determinados intervalos temporales o características de entrada a la previsión final en cada intervalo temporal previsto. Clarify ofrece las siguientes dos granularidades a modo de explicación:

  • Las explicaciones temporales son económicas y solo proporcionan información sobre intervalos de tiempo específicos, por ejemplo, en qué medida la información del día 19 en el pasado contribuyó a la previsión del primer día en el futuro. Estas atribuciones no explican las covariables estáticas de forma individual ni las explicaciones agregadas de las series temporales objetivo y de covariables. Las atribuciones son una matriz A en la que cada A tk es la atribución del paso temporal t a la previsión del intervalo temporal T+k. Tenga en cuenta que si el modelo acepta covariables futuras, t puede ser mayor que T.

  • Las explicaciones detalladas son más intensivas desde el punto de vista computacional y proporcionan un desglose completo de todas las atribuciones de las variables de entrada.

    nota

    Las explicaciones detalladas solo admiten el orden cronológico.

    Las atribuciones resultantes son un triplete compuesto por lo siguiente:

    • Matriz A x ≤ R T×K relacionada con la serie temporal de entrada, donde A tk x es la atribución de x al t paso de previsión T+k

    • Tensor A z R T+K×S×K relacionado con la serie temporal de covariables, donde A z es la atribución de tskz ts​ (es decir, la sth covariable TS) hacia el paso de pronóstico T+k

    • Matriz A u ≤ R E×K relacionada con las covariables estáticas, donde A ek u es la atribución de u e (la covariable estática eth) al paso de pronóstico T+k

Independientemente de la granularidad, la explicación también contiene un vector de desplazamiento B ≤ R K que representa el «comportamiento básico» del modelo cuando todos los datos están ofuscados.