Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Imparcialidad, explicabilidad del modelo y detección de sesgos con Clarify SageMaker
Puede usar Amazon SageMaker Clarify para comprender la imparcialidad y la explicabilidad de los modelos, así como para explicar y detectar sesgos en sus modelos. Puede configurar un trabajo de procesamiento de SageMaker Clarify para calcular las métricas de sesgo y las atribuciones de características y generar informes para la explicabilidad del modelo. SageMaker Los trabajos de procesamiento de Clarify se implementan mediante una imagen de contenedor especializada de SageMaker Clarify. La siguiente página describe cómo SageMaker funciona Clarify y cómo empezar con un análisis.
¿Qué es la imparcialidad y la explicabilidad del modelo para las predicciones del aprendizaje automático?
Los modelos de aprendizaje automático (ML) ayudan a tomar decisiones en ámbitos como los servicios financieros, la sanidad, la educación y los recursos humanos. Los responsables políticos, los reguladores y los defensores han creado conciencia sobre los desafíos éticos y políticos que plantean el aprendizaje automático y los sistemas basados en datos. Amazon SageMaker Clarify puede ayudarlo a comprender por qué su modelo de aprendizaje automático realizó una predicción específica y si este sesgo afecta a esta predicción durante el entrenamiento o la inferencia. SageMaker Clarify también proporciona herramientas que pueden ayudarle a crear modelos de aprendizaje automático menos sesgados y más comprensibles. SageMaker Clarify también puede generar informes de gobernanza modelo que puede proporcionar a los equipos de riesgo y cumplimiento y a los reguladores externos. Con SageMaker Clarify, puede hacer lo siguiente:
-
Detecte el sesgo en las predicciones de su modelo y ayude a explicarlas.
-
Identifique los tipos de sesgo en los datos previos al entrenamiento.
-
Identifique los tipos de sesgo en los datos posteriores al entrenamiento que puedan surgir durante el entrenamiento o cuando el modelo esté en producción.
SageMaker Clarify ayuda a explicar cómo sus modelos hacen predicciones mediante las atribuciones de características. También puede monitorear los modelos de inferencia que están en producción para detectar el sesgo y la desviación en la atribución de características. Esta información puede ayudarle en las siguientes áreas:
-
Regulatorio: los responsables políticos y otros reguladores pueden estar preocupados por los impactos discriminatorios de las decisiones que utilizan los resultados de los modelos de aprendizaje automático. Por ejemplo, un modelo de aprendizaje automático puede codificar sesgos e influir en una decisión automatizada.
-
Negocios: los dominios regulados pueden necesitar explicaciones fiables sobre cómo los modelos de aprendizaje automático hacen predicciones. La explicabilidad de los modelos puede ser particularmente importante para las industrias que dependen de la confiabilidad, la seguridad y el cumplimiento. Estos pueden incluir los servicios financieros, los recursos humanos, la atención médica y el transporte automatizado. Por ejemplo, es posible que las solicitudes de préstamo deban explicar a los oficiales de préstamos, a los pronosticadores y a los clientes cómo los modelos de aprendizaje automático hacían ciertas predicciones.
-
Ciencia de datos: los científicos de datos y los ingenieros de aprendizaje automático pueden depurar y mejorar los modelos de aprendizaje automático cuando pueden determinar si un modelo hace inferencias basándose en características ruidosas o irrelevantes. También pueden comprender las limitaciones de sus modelos y los modos de falla a los que pueden enfrentarse sus modelos.
Para ver una entrada de blog que muestre cómo diseñar y crear un modelo completo de aprendizaje automático para reclamaciones fraudulentas de automóviles que integre SageMaker Clarify en un SageMaker proceso, consulte al arquitecto y cree el ciclo de vida completo del aprendizaje automático con AWS: una SageMaker demostración de end-to-end Amazon
Mejores prácticas para evaluar la imparcialidad y la explicabilidad en el ciclo de vida del aprendizaje automático
La imparcialidad como proceso: las nociones de sesgo y equidad dependen de su aplicación. La medición del sesgo y la elección de las métricas de sesgo pueden basarse en consideraciones sociales, legales y otras consideraciones no técnicas. La adopción exitosa de enfoques de aprendizaje automático que tengan en cuenta la equidad incluye la creación de consenso y el logro de la colaboración entre las principales partes interesadas. Estos pueden incluir equipos de productos, políticas, legales, de ingeniería, de inteligencia artificial y aprendizaje automático, usuarios finales y comunidades.
La imparcialidad y la explicabilidad desde el diseño en el ciclo de vida del aprendizaje automático: tenga en cuenta la imparcialidad y la explicabilidad en cada etapa del ciclo de vida del aprendizaje automático. Estas etapas incluyen la formación del problema, la construcción del conjunto de datos, la selección de algoritmos, el proceso de entrenamiento del modelo, el proceso de pruebas, la implementación, la supervisión y la retroalimentación. Es importante contar con las herramientas adecuadas para realizar este análisis. Recomendamos hacer las siguientes preguntas durante el ciclo de vida del aprendizaje automático:
-
¿Fomenta el modelo los circuitos de retroalimentación que pueden producir resultados cada vez más injustos?
-
¿Es un algoritmo una solución ética al problema?
-
¿Los datos de entrenamiento son representativos de diferentes grupos?
-
¿Hay sesgos en las etiquetas o en las características?
-
¿Es necesario modificar los datos para mitigar el sesgo?
-
¿Es necesario incluir las restricciones de equidad en la función objetivo?
-
¿Se ha evaluado el modelo utilizando métricas de equidad relevantes?
-
¿Hay efectos desiguales entre los usuarios?
-
¿Se implementa el modelo en una población para la que no se capacitó ni evaluó?
Guía de la documentación SageMaker sobre las explicaciones y los sesgos
El sesgo puede producirse y medirse en los datos tanto antes como después de entrenar un modelo. SageMaker Clarify puede proporcionar explicaciones para las predicciones de los modelos después del entrenamiento y para los modelos implementados en producción. SageMaker Clarify también puede monitorear los modelos en producción para detectar cualquier desviación en sus atribuciones explicativas de referencia y calcular las líneas de base cuando sea necesario. La documentación para explicar y detectar los sesgos mediante SageMaker Clarify está estructurada de la siguiente manera:
-
Para obtener información sobre cómo configurar un trabajo de procesamiento de sesgos y explicabilidad, consulte. Configurar un trabajo de SageMaker procesamiento de Clarify
-
Para obtener información sobre cómo detectar sesgos en el preprocesamiento de los datos antes de usarlos para entrenar un modelo, consulte. Sesgo de datos previo al entrenamiento
-
Para obtener información sobre cómo detectar los datos posteriores al entrenamiento y el sesgo del modelo, consulte. Sesgo de modelos y datos posteriores al entrenamiento
-
Para obtener información sobre el enfoque de atribución de características independiente del modelo para explicar las predicciones del modelo después del entrenamiento, consulte. Explicabilidad del modelo
-
Para obtener información sobre el monitoreo de la desviación de la contribución de las características con respecto a la línea base que se estableció durante el entrenamiento del modelo, consulte. Desviación en la atribución de características de los modelos en producción
-
Para obtener información sobre el monitoreo de los modelos que están en producción para detectar la desviación de la línea base, consulteDeriva de polarización para los modelos en producción.
-
Para obtener información sobre cómo obtener explicaciones en tiempo real desde un SageMaker punto final, consulteExplicabilidad en línea con Clarify SageMaker .
Cómo funcionan los SageMaker trabajos de procesamiento de Clarify
Puede usar SageMaker Clarify para analizar sus conjuntos de datos y modelos para determinar si son explicables y sesgados. Un trabajo SageMaker de procesamiento de Clarify utiliza el SageMaker contenedor de procesamiento de Clarify para interactuar con un bucket de Amazon S3 que contiene sus conjuntos de datos de entrada. También puede usar SageMaker Clarify para analizar un modelo de cliente que se implementa en un punto final de SageMaker inferencia.
El siguiente gráfico muestra cómo un trabajo de procesamiento SageMaker de Clarify interactúa con los datos de entrada y, opcionalmente, con un modelo de cliente. Esta interacción depende del tipo específico de análisis que se lleve a cabo. El contenedor SageMaker de procesamiento Clarify obtiene el conjunto de datos de entrada y la configuración para su análisis desde un depósito de S3. Para ciertos tipos de análisis, incluido el análisis de características, el contenedor SageMaker de procesamiento Clarify debe enviar las solicitudes al contenedor modelo. A continuación, recupera las predicciones del modelo a partir de la respuesta que envía el contenedor de modelos. Después de eso, el contenedor SageMaker de procesamiento Clarify calcula y guarda los resultados del análisis en el depósito de S3.
Puede ejecutar un trabajo de procesamiento SageMaker de Clarify en varias etapas del ciclo de vida del flujo de trabajo de aprendizaje automático. SageMaker Clarify puede ayudarle a calcular los siguientes tipos de análisis:
-
Métricas de sesgo previas al entrenamiento. Estas métricas pueden ayudarte a entender el sesgo de tus datos para que puedas abordarlo y basar tu modelo en un conjunto de datos más justo. Consulte Métricas de sesgo previas al entrenamiento para obtener información sobre las métricas de sesgo previas a la capacitación. Para realizar un trabajo de análisis de las métricas de sesgo previas al entrenamiento, debe proporcionar el conjunto de datos y un archivo de configuración del JSON análisis a. Archivos de configuración de análisis
-
Métricas de sesgo posteriores al entrenamiento. Estas métricas pueden ayudarte a entender cualquier sesgo introducido por un algoritmo, las opciones de hiperparámetros o cualquier sesgo que no fuera evidente al principio del flujo. Para obtener más información sobre las métricas de sesgo posteriores al entrenamiento, consulte. Datos posteriores al entrenamiento y métricas de sesgo del modelo SageMaker Clarify utiliza las predicciones del modelo además de los datos y las etiquetas para identificar el sesgo. Para realizar un trabajo de análisis de las métricas de sesgo posteriores al entrenamiento, debes proporcionar el conjunto de datos y un archivo de configuración del JSON análisis. La configuración debe incluir el nombre del modelo o del punto de conexión.
-
Valores variables, que pueden ayudarte a entender qué impacto tiene tu característica en lo que predice tu modelo. Para obtener más información sobre los valores de Shapley, consulte. Atribuciones de características que utilizan valores Shapley Esta característica requiere un modelo entrenado.
-
Gráficas de dependencia parcial (PDPs), que pueden ayudarle a comprender cuánto cambiaría la variable objetivo prevista si cambiara el valor de una entidad. Para obtener más informaciónPDPs, consulte Análisis de gráficas de dependencia parcial (PDPs) Esta función requiere un modelo entrenado.
SageMaker Clarify necesita modelar las predicciones para calcular las métricas de sesgo y las atribuciones de características posteriores al entrenamiento. Puedes proporcionar un punto final o SageMaker Clarify creará un punto final efímero con el nombre de tu modelo, también conocido como punto final oculto. El contenedor SageMaker Clarify elimina el punto final oculto una vez finalizados los cálculos. En un nivel superior, el contenedor SageMaker Clarify completa los siguientes pasos:
-
Valida las entradas y los parámetros.
-
Crea el punto de conexión de sombra (si se proporciona un nombre de modelo).
-
Carga el conjunto de datos de entrada en un marco de datos.
-
Obtiene las predicciones del modelo desde el punto de conexión, si es necesario.
-
Calcula las métricas de sesgo y las atribuciones de características.
-
Elimina el punto de conexión de sombra.
-
Genera los resultados del análisis.
Una vez finalizado SageMaker el trabajo de procesamiento de Clarify, los resultados del análisis se guardarán en la ubicación de salida que haya especificado en el parámetro de salida de procesamiento del trabajo. Estos resultados incluyen un JSON archivo con métricas de sesgo y atribuciones de características globales, un informe visual y archivos adicionales para las atribuciones de características locales. Puede descargar los resultados desde la ubicación de salida y verlos.
Para obtener información adicional sobre las métricas de sesgo, la explicabilidad y cómo interpretarlas, consulte Descubra cómo Amazon SageMaker Clarify ayuda a detectar el sesgo
Cuadernos de ejemplo
Las siguientes secciones contienen cuadernos que le ayudarán a empezar a utilizar SageMaker Clarify, a utilizarlo para tareas especiales, incluidas las que se encuentran dentro de un trabajo distribuido, y para la visión artificial.
Introducción
Los siguientes cuadernos de muestra muestran cómo usar SageMaker Clarify para comenzar con las tareas de explicabilidad y modelar los sesgos. Estas tareas incluyen crear un trabajo de procesamiento, entrenar un modelo de aprendizaje automático (ML) y monitorear las predicciones del modelo:
-
Explicabilidad y detección de sesgos con Amazon SageMaker Clarify
: utilice SageMaker Clarify para crear un trabajo de procesamiento que detecte sesgos y explique las predicciones del modelo. -
Supervisión de la desviación de sesgo y la desviación de la atribución de características Amazon SageMaker Clarify
: utilice Amazon SageMaker Model Monitor para supervisar la desviación de sesgo y la desviación de la atribución de características a lo largo del tiempo. -
Cómo leer un conjunto de datos en formato JSON Lines en
un trabajo de procesamiento de SageMaker Clarify. -
Mitigue el sesgo, entrene otro modelo imparcial y colóquelo en el registro de modelos
: utilice la técnica de sobremuestreo de minorías sintéticas (SMOTE) y SageMaker Clarify para mitigar el sesgo, entrene otro modelo y, a continuación, coloque el nuevo modelo en el registro de modelos. Este ejemplo de cuaderno también muestra cómo colocar los nuevos artefactos del modelo, incluidos los datos, el código y los metadatos del modelo, en el registro del modelo. Este cuaderno forma parte de una serie que muestra cómo integrar SageMaker Clarify en una SageMaker canalización que se describe en The Architect y cómo desarrollar el ciclo de vida completo del aprendizaje automático con una entrada de AWS blog.
Casos especiales
Los siguientes cuadernos muestran cómo usar un SageMaker Clarify para casos especiales, incluso si está dentro de su propio contenedor, y para tareas de procesamiento del lenguaje natural:
-
Imparcialidad y explicabilidad con SageMaker Clarify (traiga su propio contenedor)
: cree su propio modelo y contenedor que pueda integrarse con SageMaker Clarify para medir los sesgos y generar un informe de análisis de explicabilidad. En este ejemplo de bloc de notas también se presentan los términos clave y se muestra cómo acceder al informe a través de Studio Classic. SageMaker -
Imparcialidad y explicabilidad con el procesamiento distribuido de SageMaker Clarify Spark
: utilice el procesamiento distribuido para ejecutar un trabajo de SageMaker Clarify que mida el sesgo previo al entrenamiento de un conjunto de datos y el sesgo posterior al entrenamiento de un modelo. Este ejemplo de cuaderno también muestra cómo obtener una explicación de la importancia de las funciones de entrada en la salida del modelo y cómo acceder al informe del análisis de explicabilidad a través de Studio Classic. SageMaker -
Explicabilidad con SageMaker Clarify: Gráficos de dependencia parcial (PDP)
: utilice SageMaker Clarify para generar un informe de explicabilidad del modelo PDPs y acceder a él. -
Explicación del análisis del sentimiento textual mediante SageMaker Clarify Procesamiento del lenguaje natural (NLP) Explicabilidad
: utilice SageMaker Clarify para el análisis del sentimiento textual. -
Utilice la explicabilidad mediante visión artificial (CV) para la clasificación de imágenes
y la detección de objetos.
Se ha comprobado que estos blocs de notas funcionan en Amazon SageMaker Studio Classic. Si necesita instrucciones sobre cómo abrir un bloc de notas en Studio Classic, consulteCrear o abrir un bloc de notas Amazon SageMaker Studio Classic. Si se le pide que elija un kernel, elija Python 3 (ciencia de datos).