Diferencia en las proporciones positivas de las etiquetas predichas (DPPL) - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Diferencia en las proporciones positivas de las etiquetas predichas (DPPL)

La diferencia en las proporciones positivas de las etiquetas predichas (DPPL) determina si el modelo predice los resultados de forma diferente para cada faceta. Se define como la diferencia entre la proporción de predicciones positivas (y’ = 1) para la faceta a y la proporción de predicciones positivas (y’ = 1) para la faceta d. Por ejemplo, si las predicciones del modelo conceden préstamos al 60 % del grupo de mediana edad (faceta a) y al 50 % de otros grupos de edad (faceta d), podría estar sesgado en contra de la faceta d. En este ejemplo, debe determinar si la diferencia del 10 % es importante para determinar la existencia de un sesgo.

Una comparación de la diferencia en las proporciones de las etiquetas (DPL), una medida del sesgo previo al entrenamiento, con la DPPL, una medida del sesgo posterior al entrenamiento, evalúa si el sesgo en proporciones positivas que está inicialmente presente en el conjunto de datos cambia después del entrenamiento. Si el DPPL es mayor que el DPL, el sesgo en proporciones positivas aumenta después del entrenamiento. Si el DPPL es menor que el DPL, el modelo no aumentó el sesgo en proporciones positivas después del entrenamiento. La comparación de la DPL con la DPPL no garantiza que el modelo reduzca el sesgo en todas las dimensiones. Por ejemplo, es posible que el modelo siga estando sesgado si se consideran otras métricas, como o. Prueba de contrafácticos (FT) Diferencia de precisión (AD) Para obtener más información sobre la detección de sesgos, consulte la entrada del blog Descubra cómo Amazon SageMaker Clarify ayuda a detectar sesgos. Consulte Diferencia en las proporciones de las etiquetas (DPL) para obtener más información sobre DPL.

La fórmula del DPPL es:

        DPPL = q'a - q'd

Donde:

  • q'a = n'a(1)/na es la proporción predicha de la faceta a que obtiene un resultado positivo de valor 1. En el ejemplo, la proporción de una faceta de mediana edad que se prevé que van a obtener un préstamo. Aquí n'a(1) representa el número de miembros de la faceta a que obtienen un resultado positivo predicho de valor 1 y na es el número de miembros de la faceta a.

  • q'd = n'd(1)/nd es la proporción predicha de la faceta de que obtiene un resultado positivo de valor 1. En el ejemplo, una faceta de personas de edad avanzada y jóvenes que se prevé que van a obtener un préstamo. Aquí n'd(1) representa el número de miembros de la faceta d que obtienen un resultado positivo predicho y nd es el número de miembros de la faceta d.

Si la DPPL está lo suficientemente cerca de 0, significa que se ha alcanzado la paridad demográfica después del entrenamiento.

En el caso de las etiquetas de facetas binarias y multicategoría, el rango de valores DPL normalizados oscila a lo largo del intervalo [-1, 1]. En el caso de las etiquetas continuas, los valores oscilan a lo largo del intervalo (-∞, +∞).

  • Los valores de la DPPL positivos indican que la faceta a tiene una mayor proporción de resultados positivos predichos en comparación con la faceta d.

    Esto se conoce como sesgo positivo.

  • Los valores de la DPPL cercanos a cero indican una proporción más equitativa de resultados positivos predichos entre las facetas a y d y un valor de cero indica una paridad demográfica perfecta.

  • Los valores de la DPPL negativos indican que la faceta d tiene una mayor proporción de resultados positivos predichos en comparación con la faceta a. Esto se conoce como sesgo negativo.