Desequilibrio de clases (CI) - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Desequilibrio de clases (CI)

El sesgo de desequilibrio de clases (CI) se produce cuando un valor de la faceta d tiene menos muestras de entrenamiento en comparación con otra faceta a del conjunto de datos. Esto se debe a que los modelos se ajustan preferentemente a las facetas más grandes en lugar de a las más pequeñas y, por lo tanto, pueden generar un mayor error de entrenamiento para la faceta d. Los modelos también corren un mayor riesgo de sobreajustar los conjuntos de datos más pequeños, lo que puede provocar un error de prueba mayor en la faceta d. Piense en el ejemplo en el que un modelo de machine learning se basa principalmente en datos de personas de mediana edad (faceta a), pero podría ser menos preciso cuando se hacen predicciones con personas jóvenes y de edad avanzada (faceta d).

La fórmula para medir el desequilibrio de las facetas (normalizado) es la siguiente:

        CI = (na - nd)/(na + nd)

Donde na es el número de miembros de la faceta a y nd el número para la faceta d. Sus valores oscilan en el intervalo [-1, 1].

  • Los valores CI positivos indican que la faceta a tiene más muestras de entrenamiento en el conjunto de datos y un valor de 1 indica que los datos solo contienen miembros de la faceta a.

  • Los valores CI cercanos a cero indican una distribución más equitativa de los miembros entre las facetas y un valor cero indica una partición perfectamente igual entre las facetas y representa una distribución equilibrada de las muestras en los datos de entrenamiento.

  • Los valores CI negativos indican que la faceta d tiene más muestras de entrenamiento en el conjunto de datos y un valor de -1 indica que los datos solo contienen miembros de la faceta d.

  • Los valores CI cercanos a cualquiera de los extremos, -1 o 1, están muy desequilibrados y corren un riesgo considerable de generar predicciones sesgadas.

Si se detecta que existe un desequilibrio significativo entre las facetas, es posible que desee volver a equilibrar la muestra antes de proceder a entrenar los modelos con ella.