Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Kolmogorov-Smirnov (KS)

Modo de enfoque
Kolmogorov-Smirnov (KS) - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

La métrica de sesgo de Kolmogorov-Smirnov (KS) es igual a la divergencia máxima entre las etiquetas de las distribuciones de las facetas a y d de un conjunto de datos. La prueba KS de dos muestras implementada por SageMaker Clarify complementa las demás medidas del desequilibrio de etiquetas al encontrar la etiqueta más desequilibrada.

La fórmula de la métrica de Kolmogorov-Smirnov es la siguiente:

        KS = max(|Pa(y) - Pd(y)|)

Por ejemplo, suponga que un grupo de candidatos (faceta a) a la universidad son rechazados, están en lista de espera o son aceptados con un 40 %, 40 % o 20 %, respectivamente, y que estas tasas para otros solicitantes (faceta d) son del 20 %, 10 % y 70 %. Entonces, el valor de la métrica de sesgo de Kolmogorov-Smirnov es el siguiente:

KS = máx(|0,4-0,2|, |0,4-0,1|, |0,2-0,7|) = 0,5

Esto nos indica que la divergencia máxima entre las distribuciones de facetas es de 0,5 y se produce en las tasas de aceptación. Hay tres términos en la ecuación porque las etiquetas son multiclase de cardinalidad tres.

El rango de valores LP para los resultados binarios, multicategoría y continuos es [0, +1], donde:

  • Los valores cercanos a cero indican que las etiquetas se distribuyeron uniformemente entre las facetas de todas las categorías de resultados. Por ejemplo, ambas facetas que solicitaron un préstamo obtuvieron el 50 % de aceptaciones y el 50 % de rechazos.

  • Los valores cercanos a uno indican que las etiquetas de un resultado estaban todas en una sola faceta. Por ejemplo, la faceta a obtuvo el 100 % de las aceptaciones y la faceta d no obtuvo ninguna.

  • Los valores intermitentes indican los grados relativos del desequilibrio máximo de la etiqueta.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.