Diferencia en las proporciones positivas en las etiquetas pronosticadas () DPPL - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Diferencia en las proporciones positivas en las etiquetas pronosticadas () DPPL

La diferencia en las proporciones positivas en la métrica de etiquetas pronosticadas (DPPL) determina si el modelo predice los resultados de forma diferente para cada faceta. Se define como la diferencia entre la proporción de predicciones positivas (y’ = 1) para la faceta a y la proporción de predicciones positivas (y’ = 1) para la faceta d. Por ejemplo, si las predicciones del modelo conceden préstamos al 60 % del grupo de mediana edad (faceta a) y al 50 % de otros grupos de edad (faceta d), podría estar sesgado en contra de la faceta d. En este ejemplo, debe determinar si la diferencia del 10 % es importante para determinar la existencia de un sesgo.

Al comparar la diferencia en las proporciones de las etiquetas (DPL), una medida del sesgo previo al entrenamiento, con una medida del sesgo posterior al entrenamientoDPPL, se evalúa si el sesgo en proporciones positivas que está inicialmente presente en el conjunto de datos cambia después del entrenamiento. Si DPPL es mayor queDPL, entonces el sesgo en proporciones positivas aumenta después del entrenamiento. Si DPPL es menor queDPL, el modelo no aumentó el sesgo en proporciones positivas después del entrenamiento. DPPLLa DPL comparación no garantiza que el modelo reduzca el sesgo en todas las dimensiones. Por ejemplo, es posible que el modelo siga estando sesgado si se consideran otras métricas, como Prueba de contrafácticos (FT) oDiferencia de precisión (AD). Para obtener más información sobre la detección de sesgos, consulte la entrada del blog Descubra cómo Amazon SageMaker Clarify ayuda a detectar sesgos. Consulte Diferencia en las proporciones de las etiquetas () DPL para obtener más información sobreDPL.

La fórmula para el DPPL es:

        DPPL= q' a - q' d

Donde:

  • q'a = n'a(1)/na es la proporción predicha de la faceta a que obtiene un resultado positivo de valor 1. En el ejemplo, la proporción de una faceta de mediana edad que se prevé que van a obtener un préstamo. Aquí n'a(1) representa el número de miembros de la faceta a que obtienen un resultado positivo predicho de valor 1 y na es el número de miembros de la faceta a.

  • q'd = n'd(1)/nd es la proporción predicha de la faceta de que obtiene un resultado positivo de valor 1. En el ejemplo, una faceta de personas de edad avanzada y jóvenes que se prevé que van a obtener un préstamo. Aquí n'd(1) representa el número de miembros de la faceta d que obtienen un resultado positivo predicho y nd es el número de miembros de la faceta d.

Si DPPL está lo suficientemente cerca de 0, significa que se ha alcanzado la paridad demográfica posterior a la formación.

Para las etiquetas de facetas binarias y multicategoría, los DPL valores normalizados oscilan a lo largo del intervalo [-1, 1]. En el caso de las etiquetas continuas, los valores oscilan a lo largo del intervalo (-∞, +∞).

  • DPPLLos valores positivos indican que la faceta a tiene una mayor proporción de resultados positivos pronosticados en comparación con la faceta d.

    Esto se conoce como sesgo positivo.

  • Los valores DPPL cercanos a cero indican una proporción más equitativa de resultados positivos previstos entre las facetas a y d, y un valor igual a cero indica una paridad demográfica perfecta.

  • DPPLLos valores negativos indican que la faceta d tiene una mayor proporción de resultados positivos pronosticados en comparación con la faceta a. Esto se conoce como sesgo negativo.