Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Interpretabilidad local
Los métodos más populares para la interpretabilidad local de modelos complejos se basan en las explicaciones aditivas de Shapley (SHAP) [8] o en los gradientes integrados [11]. Cada método tiene una serie de variantes que son específicas de un tipo de modelo.
Para los modelos de conjuntos de árboles, utilice Tree SHAP
En el caso de los modelos basados en árboles, la programación dinámica permite un cálculo rápido y exacto de los valores de Shapley
Para redes neuronales y modelos diferenciables, utilice gradientes y conductancia integrados
Los gradientes integrados proporcionan una forma sencilla de calcular las atribuciones de características en las redes neuronales. La conductancia se basa en gradientes integrados para ayudarlo a interpretar las atribuciones de partes de las redes neuronales, como las capas y las neuronas individuales. (Consulte [3,11], la implementación se encuentra disponible en https://captum.ai/
Para todos los demás casos, utilice Kernel SHAP
Puede usar Kernel SHAP para calcular las atribuciones de características de cualquier modelo, pero es una aproximación al cálculo de los valores completos de Shapley, y sigue siendo costoso desde el punto de vista computacional (consulte [8]). Los recursos computacionales necesarios para Kernel SHAP aumentan rápidamente con el número de características. Esto requiere métodos de aproximación que puedan reducir la fidelidad, la repetibilidad y la solidez de las explicaciones. Amazon SageMaker Clarify proporciona métodos prácticos que implementan contenedores prediseñados para calcular los valores de Kernel SHAP en instancias independientes. (Para ver un ejemplo, consulte el repositorio de GitHub Fairness and Explainability with SageMaker Clarify
En el caso de los modelos de un solo árbol, las variables divididas y los valores de las hojas proporcionan un modelo que se puede explicar de forma inmediata, y los métodos descritos anteriormente no proporcionan información adicional. Del mismo modo, en el caso de los modelos lineales, los coeficientes proporcionan una explicación clara del comportamiento del modelo. (Tanto el método SHAP como el método de gradientes integrados devuelven contribuciones determinadas por los coeficientes).
Tanto el método SHAP como el método basado en gradientes integrados tienen puntos débiles. SHAP exige que las atribuciones se deriven de una media ponderada de todas las combinaciones de características. Las atribuciones obtenidas de esta manera pueden ser engañosas a la hora de estimar la importancia de una característica si existe una fuerte interacción entre las características. Los métodos que se basan en gradientes integrados pueden resultar difíciles de interpretar debido a la gran cantidad de dimensiones que están presentes en las grandes redes neuronales, y estos métodos son sensibles a la elección de un punto base. En términos más generales, los modelos pueden utilizar las características de formas inesperadas para alcanzar un cierto nivel de rendimiento, y estas pueden variar según el modelo; la importancia de las características siempre depende del modelo.
Visualizaciones recomendadas
El siguiente cuadro presenta varias formas recomendadas de visualizar las interpretaciones locales que se analizaron en las secciones anteriores. Para los datos tabulares, recomendamos utilizar un gráfico de barras sencillo que muestre las atribuciones, de modo que puedan compararse fácilmente y utilizarse para deducir la forma en que el modelo realiza las predicciones.
En el caso de los datos de texto, la integración de tokens genera una gran cantidad de entradas escalares. Los métodos recomendados en las secciones anteriores generan una atribución para cada dimensión de la integración y para cada salida. Para condensar esta información en una visualización, se pueden sumar las atribuciones de un token determinado. El siguiente ejemplo muestra la suma de las atribuciones del modelo de preguntas y respuestas basado en BERT que se entrenó con el conjunto de datos SQUAD. En este caso, la etiqueta pronosticada y verdadera es el token de la palabra «francia».
De lo contrario, la norma vectorial de las atribuciones del token se puede asignar como un valor de atribución total, como se muestra en el siguiente ejemplo.
Para las capas intermedias de los modelos de aprendizaje profundo, se pueden aplicar agregaciones similares a las conductancias para su visualización, como se muestra en el siguiente ejemplo. Esta norma vectorial de la conductancia del token para las capas de transformadores muestra la eventual activación para la predicción del token final («francia»).
Los vectores de activación conceptual ofrecen un método para estudiar las redes neuronales profundas con más detalle [6]. Este método extrae características de una capa de una red ya entrenada y entrena a un clasificador lineal sobre esas característica para que haga inferencias sobre la información de la capa. Por ejemplo, es posible que desee determinar qué capa de un modelo de lenguaje basado en BERT contiene la mayor cantidad de información sobre las partes del discurso. En este caso, podría entrenar a un modelo lineal basado en las partes del discurso en la salida de cada capa, y hacer una estimación aproximada de que el clasificador con mejor rendimiento esté asociado a la capa que contenga la mayor parte de la información de las partes del discurso. Aunque no lo recomendamos como método principal para interpretar las redes neuronales, puede ser una opción para un estudio más detallado y servir de ayuda en el diseño de la arquitectura de la red.