Importancia de la variable del modelo - Amazon Fraud Detector

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Importancia de la variable del modelo

La importancia de las variables del modelo es una función de Amazon Fraud Detector que clasifica las variables del modelo dentro de una versión del modelo. A cada variable del modelo se le proporciona un valor en función de su importancia relativa para el rendimiento general del modelo. La variable de modelo con el valor más alto es más importante para el modelo que las demás variables del conjunto de datos de esa versión del modelo y, de forma predeterminada, aparece en la parte superior. Del mismo modo, la variable de modelo con el valor más bajo aparece en la parte inferior de forma predeterminada y es la menos importante en comparación con las demás variables del modelo. Al utilizar los valores de importancia de las variables del modelo, puede obtener información sobre las entradas que impulsan el rendimiento del modelo.

Puede ver los valores de importancia de las variables del modelo para su versión de modelo entrenada en la consola de Amazon Fraud Detector o mediante la DescribeModelVersionAPI.

La importancia de las variables del modelo proporciona el siguiente conjunto de valores para cada variable utilizada para entrenar la versión del modelo.

  • Tipo de variable: tipo de variable (por ejemplo, dirección IP o correo electrónico). Para más información, consulte Tipos de variables. Para los modelos Account Takeover Insights (ATI), Amazon Fraud Detector proporciona un valor de importancia variable tanto para el tipo de variable bruta como para el agregado. Los tipos de variables sin procesar se asignan a las variables que usted proporciona. El tipo de variable agregada se asigna a un conjunto de variables sin procesar que Amazon Fraud Detector ha combinado para calcular un valor de importancia agregado.

  • Nombre de variable: nombre de la variable de evento que se utilizó para entrenar la versión del modelo (por ejemplo,ip_address,email_address,are_creadentials_valid). Para el tipo de variable agregada, se muestran los nombres de todas las variables que se utilizaron para calcular el valor de importancia de la variable agregada.

  • Valor de importancia variable: número que representa la importancia relativa de la variable bruta o agregada en relación con el rendimiento del modelo. Rango típico: 0—10

En la consola de Amazon Fraud Detector, los valores de importancia de las variables del modelo se muestran de la siguiente manera para un modelo Online Fraud Insights (OFI) o Transaction Fraud Insights (TFI). Un modelo Account Takeover Insight (ATI) proporcionará valores de importancia de variables agregados además de los valores de importancia de la variable bruta. El gráfico visual permite ver fácilmente la importancia relativa entre las variables, ya que la línea punteada vertical hace referencia al valor de importancia de la variable mejor clasificada.

Modele el gráfico de importancia de las variables.

Amazon Fraud Detector genera valores de importancia variables para cada versión del modelo de Fraud Detector sin coste adicional.

importante

Las versiones del modelo que se crearon antes del 9 de julio de 2021 no tienen valores de importancia variables. Debe entrenar una nueva versión del modelo para generar los valores de importancia de las variables del modelo.

Uso de valores de importancia de las variables del modelo

Puede utilizar los valores de importancia de las variables del modelo para obtener información sobre qué es lo que impulsa o reduce el rendimiento de su modelo y cuáles son las variables que más contribuyen. Y, a continuación, modifique el modelo para mejorar el rendimiento general.

Más específicamente, para mejorar el rendimiento de su modelo, examine los valores de importancia de las variables comparándolos con los conocimientos de su dominio y depure los problemas en los datos de entrenamiento. Por ejemplo, si el identificador de cuenta se utilizó como entrada para el modelo y aparece en la parte superior, observe su valor de importancia variable. Si el valor de importancia de la variable es significativamente más alto que el resto de los valores, es posible que el modelo se ajuste demasiado a un patrón de fraude específico (por ejemplo, todos los casos de fraude se deben al mismo identificador de cuenta). Sin embargo, también puede darse el caso de que se filtre la etiqueta si la variable depende de las etiquetas de fraude. En función del resultado del análisis basado en el conocimiento del dominio, es posible que desee eliminar la variable y entrenarla con un conjunto de datos más diverso, o mantener el modelo tal como está.

Del mismo modo, eche un vistazo a las variables clasificadas en último lugar. Si el valor de importancia de la variable es significativamente inferior al resto de los valores, es posible que esta variable del modelo no tenga ninguna importancia a la hora de entrenar el modelo. Podría considerar la posibilidad de eliminar la variable para entrenar una versión del modelo más sencilla. Si su modelo tiene pocas variables (por ejemplo, solo dos variables), Amazon Fraud Detector seguirá proporcionando los valores de importancia de las variables y clasificándolas. Sin embargo, la información en este caso será limitada.

importante
  1. Si observa que faltan variables en el gráfico de importancia de las variables del modelo, es posible que se deba a una de las siguientes razones. Considere la posibilidad de modificar la variable en su conjunto de datos y volver a entrenar el modelo.

    • El recuento de valores únicos de la variable en el conjunto de datos de entrenamiento es inferior a 100.

    • Faltan más del 0,9 de los valores de la variable en el conjunto de datos de entrenamiento.

  2. Debe entrenar una nueva versión del modelo cada vez que desee ajustar las variables de entrada del modelo.

Evaluar los valores de importancia de las variables del modelo

Se recomienda tener en cuenta lo siguiente al evaluar los valores de importancia de las variables del modelo:

  • Los valores de importancia de las variables siempre deben evaluarse en combinación con el conocimiento del dominio.

  • Examine el valor de importancia variable de una variable en relación con el valor de importancia variable de las demás variables de la versión del modelo. No considere el valor de importancia de una variable individual de forma independiente.

  • Compare los valores de importancia variable de las variables de la misma versión del modelo. No compare los valores de importancia variable de las mismas variables entre las distintas versiones del modelo, ya que el valor de importancia variable de una variable en una versión del modelo puede diferir del valor de la misma variable en una versión de modelo diferente. Si utiliza las mismas variables y el mismo conjunto de datos para entrenar diferentes versiones del modelo, esto no genera necesariamente los mismos valores de importancia de las variables.

Ver la clasificación de importancia de las variables del modelo

Una vez finalizada la capacitación sobre modelos, puede ver la clasificación de importancia de las variables del modelo de su versión entrenada en la consola de Amazon Fraud Detector o mediante la DescribeModelVersionAPI.

Para ver la clasificación de importancia de las variables del modelo mediante la consola,
  1. Abre la AWS consola e inicia sesión en tu cuenta. Dirígete a Amazon Fraud Detector.

  2. En el panel de navegación izquierdo, elija Models (Modelos).

  3. Elige tu modelo y, a continuación, la versión del modelo.

  4. Asegúrese de que la pestaña Descripción general esté seleccionada.

  5. Desplácese hacia abajo para ver el panel de importancia de las variables del modelo.

Comprender cómo se calcula el valor de importancia de la variable del modelo

Al finalizar la formación de cada versión del modelo, Amazon Fraud Detector genera automáticamente valores de importancia de las variables del modelo y métricas de rendimiento del modelo. Para ello, Amazon Fraud Detector utiliza Shapley Additive Explanations (SHAP). Básicamente, el SHAP es la contribución media esperada de una variable del modelo una vez consideradas todas las combinaciones posibles de todas las variables del modelo.

En primer lugar, el SHAP asigna la contribución de cada variable del modelo a la predicción de un evento. Luego, agrega estas predicciones para crear una clasificación de las variables a nivel de modelo. Para asignar las contribuciones de cada variable del modelo a una predicción, SHAP considera las diferencias en los resultados del modelo entre todas las combinaciones de variables posibles. Al incluir todas las posibilidades de incluir o eliminar un conjunto específico de variables para generar un resultado del modelo, SHAP puede acceder con precisión a la importancia de cada variable del modelo. Esto es particularmente importante cuando las variables del modelo están altamente correlacionadas entre sí.

Los modelos ML, en la mayoría de los casos, no permiten eliminar variables. En su lugar, puede reemplazar una variable eliminada o faltante en el modelo por los valores de variable correspondientes de una o más líneas base (por ejemplo, eventos no fraudulentos). Elegir las instancias de referencia adecuadas puede resultar difícil, pero Amazon Fraud Detector te lo facilita al establecer esta línea de base como el promedio de la población.