Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Desviación en la atribución de características de los modelos en producción

Modo de enfoque
Desviación en la atribución de características de los modelos en producción - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Una desviación en la distribución de los datos en tiempo real para los modelos en producción puede provocar una desviación correspondiente en los valores de atribución de las características, del mismo modo que podría provocar una desviación en el sesgo al supervisar las métricas de sesgo. La supervisión de la atribución de funciones de Amazon SageMaker Clarify ayuda a los científicos de datos y a los ingenieros de aprendizaje automático a supervisar las predicciones sobre la desviación de la atribución de funciones de forma regular. A medida que se monitorea el modelo, los clientes pueden ver informes y gráficos exportables que detallan las atribuciones de funciones en SageMaker Studio y configurar alertas en Amazon CloudWatch para recibir notificaciones si se detecta que los valores de atribución sobrepasan un umbral determinado.

Para ilustrar esto con una situación específica, considere un escenario hipotético de admisión a la universidad. Suponga que observa los siguientes valores de atribución de características (agregados) en los datos de entrenamiento y en los datos en tiempo real:

Escenario hipotético de admisión a la universidad

Característica Atribución en los datos de entrenamiento Atribución en datos en tiempo real
Puntuación del SAT 0.70 0.10
GPA 0.50 0.20
Clasificación de clase 0,05 0,70

El cambio de los datos de entrenamiento a los datos en tiempo real parece significativo. La clasificación de características se ha invertido por completo. Al igual que ocurre con la desviación de sesgo, las desviaciones en la atribución de las características pueden deberse a un cambio en la distribución de los datos en tiempo real y justifican un análisis más detallado del comportamiento del modelo con los datos en tiempo real. Una vez más, el primer paso en estos escenarios es dar la alarma de que se ha producido una desviación.

Podemos detectar la desviación al comparar la forma en que la clasificación de las características individuales cambió de los datos de entrenamiento a los datos en tiempo real. Además de ser sensibles a los cambios en el orden de clasificación, también hay que tener en cuenta la puntuación bruta de atribución de las características. Por ejemplo, dado que dos características se sitúan en la clasificación en el mismo número de posiciones, pasando del entrenamiento a los datos en tiempo real, queremos ser más sensibles a la característica que tenga una puntuación de atribución más alta en los datos de entrenamiento. Teniendo en cuenta estas propiedades, se utiliza la puntuación de ganancia acumulada descontada normalizada (NDCG) para comparar las clasificaciones de las atribuciones de las características de los datos de entrenamiento y en tiempo real.

En concreto, suponga que tenemos lo siguiente:

  • F=[f1​,…,fm​] es la lista de características ordenadas según sus puntuaciones de atribución en los datos de entrenamiento, donde m es el número total de características. Por ejemplo, en nuestro caso F=[puntuación SAT, GPA, clasificación de clase].

  • a(f) es una función que devuelve la puntuación de atribución de la característica en los datos de entrenamiento de una característica f. Por ejemplo, a(puntuación SAT) = 0,70.

  • F′=[f′​1​, …, f′​m​] es la lista de características ordenadas según sus puntuaciones de atribución en los datos en tiempo real. Por ejemplo, F′= [clasificación de clase, GPA, puntuación SAT].

Luego, se puede calcular la NDCG de la siguiente manera:

        NDCG=DCG/iDCG​

por

  • DCG = ∑1ma(f'i)/log2​(i+1)

  • iDCG = ∑1ma(fi)/log2​(i+1)

La DCG cuantitativa mide si las características con una alta atribución en los datos de entrenamiento también ocupan un lugar más alto en la atribución de características calculada a partir de los datos en tiempo real. La cantidad iDCG mide la puntuación ideal y es solo un factor de normalización para garantizar que la cantidad final se encuentre dentro del rango [0, 1], siendo 1 el mejor valor posible. Un valor NDCG igual a 1 significa que la clasificación de atribución de características en los datos en tiempo real es la misma que en los datos de entrenamiento. En este ejemplo concreto, dado que la clasificación ha cambiado bastante, el valor de NDCG es 0,69.

En SageMaker Clarify, si el valor del NDCG es inferior a 0,90, emitimos automáticamente una alerta.

Cuaderno de ejemplo del monitor de modelos

SageMaker Clarify proporciona el siguiente cuaderno de ejemplo que muestra cómo capturar datos de inferencia para un punto final en tiempo real, crear una línea base para monitorear la evolución del sesgo e inspeccionar los resultados:

Se ha comprobado que este portátil solo funciona en SageMaker Studio. Si necesita instrucciones sobre cómo abrir un bloc de notas en SageMaker Studio, consulteCrear o abrir un bloc de notas Amazon SageMaker Studio Classic. Si se le pide que elija un kernel, elija Python 3 (ciencia de datos). Los siguientes temas contienen los aspectos más destacados de los dos últimos pasos y contienen ejemplos de código del cuaderno de ejemplos.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.