Interpretabilidad local - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Interpretabilidad local

Los métodos más populares para la interpretabilidad local de modelos complejos se basan en las explicaciones aditivas de Shapley (SHAP) [8] o en los gradientes integrados [11]. Cada método tiene una serie de variantes que son específicas de un tipo de modelo.

Para los modelos de conjuntos de árboles, utilice Tree SHAP

En el caso de los modelos basados en árboles, la programación dinámica permite un cálculo rápido y exacto de los valores de Shapley para cada característica, y este es el enfoque recomendado para las interpretaciones locales en los modelos de conjuntos de árboles. (Ver 7], la implementación se encuentra disponible en https://github.com/slundberg/shap.)

Para redes neuronales y modelos diferenciables, utilice gradientes y conductancia integrados

Los gradientes integrados proporcionan una forma sencilla de calcular las atribuciones de características en las redes neuronales. La conductancia se basa en gradientes integrados para ayudarlo a interpretar las atribuciones de partes de las redes neuronales, como las capas y las neuronas individuales. (Consulte [3,11], la implementación se encuentra disponible en https://captum.ai/.) No puede poner en práctica estos métodos en los modelos sin utilizar un gradiente; en esos casos, puede usar Kernel SHAP (que se explica en la siguiente sección). Cuando el gradiente está disponible, las atribuciones de gradientes integrados se pueden calcular más rápidamente que las atribuciones de Kernel SHAP. Un desafío a la hora de utilizar gradientes integrados es elegir el mejor punto base para derivar una interpretación. Por ejemplo, si el punto base de un modelo de imagen es una imagen de intensidad cero en todos los píxeles, es posible que las regiones importantes de una imagen que son más oscuras no tengan atribuciones que se alineen con la intuición humana. Un enfoque para solucionar este problema consiste en utilizar varias atribuciones de puntos base y sumarlas. Esto forma parte del enfoque adoptado en el método de atribución de características XRAI para imágenes [5], en el que las atribuciones de gradientes integrados que utilizan una imagen de referencia negra y una imagen de referencia blanca se suman para generar atribuciones más coherentes.

Para todos los demás casos, utilice Kernel SHAP

Puede usar Kernel SHAP para calcular las atribuciones de características de cualquier modelo, pero es una aproximación al cálculo de los valores completos de Shapley, y sigue siendo costoso desde el punto de vista computacional (consulte [8]). Los recursos computacionales necesarios para Kernel SHAP aumentan rápidamente con el número de características. Esto requiere métodos de aproximación que puedan reducir la fidelidad, la repetibilidad y la solidez de las explicaciones. Amazon SageMaker Clarify proporciona métodos prácticos que implementan contenedores prediseñados para calcular los valores de Kernel SHAP en instancias independientes. (Para ver un ejemplo, consulte el repositorio de GitHub Fairness and Explainability with SageMaker Clarify.)

En el caso de los modelos de un solo árbol, las variables divididas y los valores de las hojas proporcionan un modelo que se puede explicar de forma inmediata, y los métodos descritos anteriormente no proporcionan información adicional. Del mismo modo, en el caso de los modelos lineales, los coeficientes proporcionan una explicación clara del comportamiento del modelo. (Tanto el método SHAP como el método de gradientes integrados devuelven contribuciones determinadas por los coeficientes).

Tanto el método SHAP como el método basado en gradientes integrados tienen puntos débiles. SHAP exige que las atribuciones se deriven de una media ponderada de todas las combinaciones de características. Las atribuciones obtenidas de esta manera pueden ser engañosas a la hora de estimar la importancia de una característica si existe una fuerte interacción entre las características. Los métodos que se basan en gradientes integrados pueden resultar difíciles de interpretar debido a la gran cantidad de dimensiones que están presentes en las grandes redes neuronales, y estos métodos son sensibles a la elección de un punto base. En términos más generales, los modelos pueden utilizar las características de formas inesperadas para alcanzar un cierto nivel de rendimiento, y estas pueden variar según el modelo; la importancia de las características siempre depende del modelo.

Visualizaciones recomendadas

El siguiente cuadro presenta varias formas recomendadas de visualizar las interpretaciones locales que se analizaron en las secciones anteriores. Para los datos tabulares, recomendamos utilizar un gráfico de barras sencillo que muestre las atribuciones, de modo que puedan compararse fácilmente y utilizarse para deducir la forma en que el modelo realiza las predicciones.

Visualización de las interpretaciones locales mediante un gráfico de barras

En el caso de los datos de texto, la integración de tokens genera una gran cantidad de entradas escalares. Los métodos recomendados en las secciones anteriores generan una atribución para cada dimensión de la integración y para cada salida. Para condensar esta información en una visualización, se pueden sumar las atribuciones de un token determinado. El siguiente ejemplo muestra la suma de las atribuciones del modelo de preguntas y respuestas basado en BERT que se entrenó con el conjunto de datos SQUAD. En este caso, la etiqueta pronosticada y verdadera es el token de la palabra «francia».

La suma de las atribuciones del modelo de preguntas y respuestas basado en BERT que se entrenó con el conjunto de datos SQUAD, ejemplo 1.

De lo contrario, la norma vectorial de las atribuciones del token se puede asignar como un valor de atribución total, como se muestra en el siguiente ejemplo.

La suma de las atribuciones del modelo de preguntas y respuestas basado en BERT que se entrenó con el conjunto de datos SQUAD, ejemplo 2.

Para las capas intermedias de los modelos de aprendizaje profundo, se pueden aplicar agregaciones similares a las conductancias para su visualización, como se muestra en el siguiente ejemplo. Esta norma vectorial de la conductancia del token para las capas de transformadores muestra la eventual activación para la predicción del token final («francia»).

Cómo se pueden aplicar agregaciones a las conductancias para su visualización en las capas intermedias de los modelos de aprendizaje profundo

Los vectores de activación conceptual ofrecen un método para estudiar las redes neuronales profundas con más detalle [6]. Este método extrae características de una capa de una red ya entrenada y entrena a un clasificador lineal sobre esas característica para que haga inferencias sobre la información de la capa. Por ejemplo, es posible que desee determinar qué capa de un modelo de lenguaje basado en BERT contiene la mayor cantidad de información sobre las partes del discurso. En este caso, podría entrenar a un modelo lineal basado en las partes del discurso en la salida de cada capa, y hacer una estimación aproximada de que el clasificador con mejor rendimiento esté asociado a la capa que contenga la mayor parte de la información de las partes del discurso. Aunque no lo recomendamos como método principal para interpretar las redes neuronales, puede ser una opción para un estudio más detallado y servir de ayuda en el diseño de la arquitectura de la red.