Supervisión de la desviación de sesgo de los modelos en producción - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Supervisión de la desviación de sesgo de los modelos en producción

La supervisión SageMaker de sesgos de Amazon Clarify ayuda a los científicos de datos y a los ingenieros de aprendizaje automático a supervisar las predicciones de sesgo de forma regular. A medida que se supervisa el modelo, los clientes pueden ver informes y gráficos exportables que detallan los sesgos en SageMaker Studio y configurar alertas en Amazon CloudWatch para recibir notificaciones si se detecta un sesgo que supere un umbral determinado. El sesgo puede introducirse o agravarse en los modelos de ML implementados cuando los datos de entrenamiento difieren de los datos que el modelo ve durante la implementación (es decir, los datos en tiempo real). Estos tipos de cambios en la distribución de los datos en tiempo real pueden ser temporales (por ejemplo, debido a algunos eventos efímeros del mundo real) o permanentes. En cualquier caso, podría ser importante detectar estos cambios. Por ejemplo, los resultados de un modelo para predecir los precios de las viviendas pueden sesgarse si las tasas hipotecarias utilizadas para elaborar el modelo difieren de las tasas hipotecarias actuales del mundo real. Con las funciones de detección de sesgos de Model Monitor, cuando SageMaker detecta sesgos por encima de un determinado umbral, genera automáticamente métricas que puede ver en SageMaker Studio y a través de las CloudWatch alertas de Amazon.

En general, medir el sesgo solo durante la train-and-deploy fase puede no ser suficiente. Es posible que, una vez implementado el modelo, la distribución de los datos que ve el modelo implementado (es decir, los datos en tiempo real) sea diferente de la distribución de los datos en el conjunto de datos de entrenamiento. Este cambio podría introducir sesgos en un modelo a lo largo del tiempo. El cambio en la distribución de los datos en tiempo real puede ser temporal (por ejemplo, debido a algún comportamiento efímero, como la temporada navideña) o permanente. En cualquier caso, puede ser importante detectar estos cambios y tomar medidas para reducir el sesgo cuando sea apropiado.

Para detectar estos cambios, SageMaker Clarify proporciona la funcionalidad de monitorear continuamente las métricas de sesgo de un modelo implementado y emitir alertas automatizadas si las métricas superan un umbral. Por ejemplo, considere la métrica de DPPL sesgo. Especifique un rango de valores permitido A =( amin​, amax​), por ejemplo, un intervalo de (-0,1, 0,1), al que DPPL debería pertenecer durante el despliegue. Cualquier desviación de este rango debería generar una alerta de sesgo detectado. Con SageMaker Clarify, puede realizar estas comprobaciones a intervalos regulares.

Por ejemplo, puede establecer la frecuencia de las comprobaciones en 2 días. Esto significa que SageMaker Clarify calcula la DPPL métrica a partir de los datos recopilados durante un período de 2 días. En este ejemplo, Dwin son los datos que el modelo procesó durante el último período de 2 días. Se emite una alerta si el DPPL valor b win​ calculado en D se win​ encuentra fuera de un rango permitido A. Este enfoque para comprobar si b win está fuera de A puede resultar algo ruidoso. Dwin​ puede constar de muy pocas muestras y puede no ser representativo de la distribución de datos en tiempo real. El tamaño pequeño de la muestra significa que el valor del sesgo bwin​ calculado sobre Dwin​ podría no ser una estimación muy sólida. De hecho, se pueden observar valores de bwin muy altos (o bajos) por pura casualidad. Para garantizar que las conclusiones extraídas de los datos D observados win sean estadísticamente significativas, SageMaker Clarify utiliza intervalos de confianza. En concreto, utiliza el método del intervalo de arranque normal para construir un intervalo C = (cmin, cmax) de forma que SageMaker Clarify esté seguro de que el valor de sesgo real calculado sobre todos los datos en tiempo real está contenido en C, con una alta probabilidad. Ahora, si el intervalo de confianza C se superpone con el rango permitido A, SageMaker Clarify lo interpreta de la siguiente manera: «es probable que el valor métrico de sesgo de la distribución de datos en tiempo real se encuentre dentro del rango permitido». Si C y A están disjuntos, SageMaker Clarify está seguro de que la métrica de sesgo no se encuentra en A y genera una alerta.

Cuaderno de ejemplo del monitor de modelos

Amazon SageMaker Clarify proporciona el siguiente ejemplo de cuaderno en el que se muestra cómo capturar datos de inferencia para un punto final en tiempo real, crear una línea de base para monitorear la evolución del sesgo e inspeccionar los resultados:

Se ha verificado que este portátil solo funciona en Amazon SageMaker Studio. Si necesitas instrucciones sobre cómo abrir un bloc de notas en Amazon SageMaker Studio, consultaCrear o abrir un bloc de notas Amazon SageMaker Studio Classic. Si se le pide que elija un kernel, elija Python 3 (ciencia de datos). Los siguientes temas contienen los aspectos más destacados de los dos últimos pasos y contienen ejemplos de código del cuaderno de ejemplos.