Diferencia en las proporciones positivas de las etiquetas predichas (DPPL)

La diferencia en las proporciones positivas de las etiquetas predichas (DPPL) determina si el modelo predice los resultados de forma diferente para cada faceta. Se define como la diferencia entre la proporción de predicciones positivas (y’ = 1) para la faceta a y la proporción de predicciones positivas (y’ = 1) para la faceta d. Por ejemplo, si las predicciones del modelo conceden préstamos al 60 % del grupo de mediana edad (faceta a) y al 50 % de otros grupos de edad (faceta d), podría estar sesgado en contra de la faceta d. En este ejemplo, debe determinar si la diferencia del 10 % es importante para determinar la existencia de un sesgo.

Al comparar la diferencia en las proporciones de las etiquetas (DPL), una medida del sesgo previo al entrenamiento, con DPPL, una medida del sesgo posterior al entrenamiento, se evalúa si el sesgo en proporciones positivas que está inicialmente presente en el conjunto de datos cambia después del entrenamiento. Si DPPL es mayor que DPL, el sesgo en proporciones positivas aumenta después del entrenamiento. Si DPPL es menor que DPL, el sesgo del modelo no ha aumentado en proporciones positivas después del entrenamiento. La comparación de DPL con DPPL no garantiza que el modelo reduzca el sesgo en todas las dimensiones. Por ejemplo, es posible que el modelo siga estando sesgado si se consideran otras métricas, como Prueba de contrafácticos (FT) o Diferencia de precisión (AD). Para obtener más información sobre la detección de sesgos, consulte la entrada del blog Descubra cómo Amazon SageMaker Clarify ayuda a detectar sesgos. Consulte Diferencia en las proporciones de las etiquetas (DPL) para obtener más información sobre DPL.

La fórmula de DPPL es:

DPPL = q'_a - q'_d

Donde:

q'_a = n'_a⁽¹⁾/n_a es la proporción predicha de la faceta a que obtiene un resultado positivo de valor 1. En el ejemplo, la proporción de una faceta de mediana edad que se prevé que van a obtener un préstamo. Aquí n'_a⁽¹⁾ representa el número de miembros de la faceta a que obtienen un resultado positivo predicho de valor 1 y n_a es el número de miembros de la faceta a.
q'_d = n'_d⁽¹⁾/n_d es la proporción predicha de la faceta de que obtiene un resultado positivo de valor 1. En el ejemplo, una faceta de personas de edad avanzada y jóvenes que se prevé que van a obtener un préstamo. Aquí n'_d⁽¹⁾ representa el número de miembros de la faceta d que obtienen un resultado positivo predicho y n_d es el número de miembros de la faceta d.

Si la DPPL está lo suficientemente cerca de 0, significa que se ha alcanzado la paridad demográfica después del entrenamiento.

En el caso de las etiquetas de facetas binarias y multicategoría, el rango de valores DPL normalizados oscila a lo largo del intervalo [-1, 1]. En el caso de las etiquetas continuas, los valores oscilan a lo largo del intervalo (-∞, +∞).

Los valores de la DPPL positivos indican que la faceta a tiene una mayor proporción de resultados positivos predichos en comparación con la faceta d.

Esto se conoce como sesgo positivo.
Los valores de la DPPL cercanos a cero indican una proporción más equitativa de resultados positivos predichos entre las facetas a y d y un valor de cero indica una paridad demográfica perfecta.
Los valores de la DPPL negativos indican que la faceta d tiene una mayor proporción de resultados positivos predichos en comparación con la faceta a. Esto se conoce como sesgo negativo.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Métricas del sesgo de los datos y el modelo posterior al entrenamiento

Impacto dispar (DI)