Uso de transformaciones de machine learning en la consola de AWS Glue - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de transformaciones de machine learning en la consola de AWS Glue

Puede utilizar AWS Glue para crear transformaciones de machine learning personalizadas que puedan utilizarse para limpiar sus datos. Puede usar estas transformaciones cuando cree un trabajo en la consola de AWS Glue.

Para obtener información sobre cómo crear una transformación de machine learning, consulte Coincidencia de registros con FindMatches de AWS Lake Formation.

Propiedades de transformación

Para ver una transformación de machine learning existente, inicie sesión en la AWS Management Console, y abra la consola de AWS Glue en https://console.aws.amazon.com/glue/. En el panel de navegación, en Integración de datos y ETL, elija Herramientas de clasificación de datos > Coincidencia de registros.

Las propiedades de cada transformación:

Transform name (Nombre de transformación)

El nombre único que asignó a la transformación cuando la creó.

ID

Un ID único de la transformación.

Recuento de etiquetas

La cantidad de etiquetas en el archivo de etiquetado que se proporcionó para ayudar a enseñar a la transformación.

Status

Indica si la transformación tiene el estado Ready (Listo) o Needs teaching (Necesita formación). Para ejecutar una transformación de machine learning correctamente en un trabajo, el estado debe ser Ready (Listo).

Creado

La fecha en que se creó la transformación.

Modificado

La fecha en la que se actualizó por última vez la transformación.

Descripción

La descripción suministrada para la transformación, si se ha proporcionado una.

Versión de AWS Glue

La versión de AWS Glue usada.

ID de ejecución

El nombre único que asignó a la transformación cuando la creó.

Tipo de tarea

El tipo de transformación de machine learning; por ejemplo, Find matching records (Búsqueda de registros de coincidencia).

Status

Indica el estado de la ejecución de la tarea. Entre las causas posibles se incluyen las siguientes:

  • Iniciando

  • Running

  • Deteniendo

  • Stopped (Detenido)

  • Correcto

  • Con error

  • Tiempo de espera

Error

Si el estado es Con error, aparece un mensaje de error que describe el motivo.

Agregado y edición de transformaciones de machine learning

Puede ver, eliminar, configurar y enseñar, o ajustar una transformación en la consola de AWS Glue. Active la casilla de verificación junto a la transformación en la lista, elija Action (Acción) y, a continuación, seleccione la acción que desee realizar.

Crear una nueva transformación de ML

Para agregar una nueva transformación de machine learning, elija Crear transformación. Siga las instrucciones en el asistente Agregar trabajo. Para obtener más información, consulte Coincidencia de registros con FindMatches de AWS Lake Formation.

Paso 1. Configure propiedades de transformación

  1. Ingrese el nombre y la descripción (opcional).

  2. Si lo desea, establezca la configuración de seguridad. Consulte Uso de cifrado de datos con transformaciones de machine learning.

  3. Si lo desea, establezca la configuración de ejecución de tareas. La configuración de ejecución de tareas permite personalizar la forma en que se ejecuta la tarea. Seleccione el tipo de trabajador, el número de trabajadores, el tiempo de espera de la tarea (en minutos), el número de reintentos y la versión de AWS Glue.

  4. Si lo desea, defina las etiquetas. Las etiquetas son marcas que asigna a un recurso de AWS. Cada etiqueta consta de una clave y un valor opcional. Las etiquetas se pueden usar para buscar y filtrar los recursos o hacer un seguimiento de los costos de AWS.

Paso 2. Elija la tabla y la clave principal.

  1. Elija la base de datos y la tabla del catálogo de AWS Glue.

  2. Elija una clave principal de la tabla seleccionada. La columna de clave principal normalmente contiene un identificador único para cada registro del origen de datos.

Paso 3. Seleccione las opciones de ajuste.

  1. Para Exhaustividad vs. precisión, elija el valor de ajuste para la transformación y así favorecer la exhaustividad o la precisión. De forma predeterminada, está seleccionada la opción Equilibrado, pero puede elegir entre favorecer la exhaustividad o la precisión o bien elegir Personalizado e ingresar un valor entre 0,0 y 1,0 (ambos incluidos).

  2. Para menor costo vs. precisión, elija el valor de ajuste que favorezca una reducción del costo o la precisión o bien elija Personalizado e ingrese un valor entre 0,0 y 1,0 (ambos incluidos).

  3. Para Forzar la coincidencia, seleccione Forzar la salida para que coincida con las etiquetas si quiere enseñarle a la transformación de ML a que la salida coincida con las etiquetas utilizadas.

Paso 4. Revisar y crear.

  1. Revise las opciones de los pasos 1 a 3.

  2. Seleccione Editar para cualquier paso que necesite modificarse. Seleccione Crear transformación para completar el asistente de creación de transformaciones.

Uso de cifrado de datos con transformaciones de machine learning

Al agregar una transformación de machine learning a AWS Glue, puede especificar opcionalmente una configuración de seguridad asociada con el origen de datos o el destino de datos. Si el bucket de Amazon S3 utilizado para almacenar los datos está cifrado con una configuración de seguridad, especifique la misma configuración de seguridad al crear la transformación.

También puede elegir utilizar el cifrado del lado del servidor con AWS KMS (SSE-KMS) para cifrar el modelo y las etiquetas, y así evitar la inspección de parte de personas no autorizadas. Si elige esta opción, se le pedirá que elija la opción AWS KMS key por nombre, o puede elegir Enter a key ARN (Ingresar una clave de ARN). Si elige ingresar el ARN para la clave KMS, aparecerá un segundo campo en el que puede introducir el ARN de la clave KMS.

nota

En la actualidad, las transformaciones de ML que utilizan una clave de cifrado personalizada no son compatibles en las siguientes regiones:

  • Asia-Pacífico (Osaka): ap-northeast-3

Visualización de los detalles de la transformación

Visualización de las propiedades de transformación

La página de Propiedades de la transformación incluye los atributos de la transformación. Muestra los detalles sobre la definición de transformación, incluidos los siguientes:

  • Transform name (Nombre de transformación) muestra el nombre de la transformación.

  • Type (Tipo) muestra el tipo de transformación.

  • Status (Estado) muestra si la transformación ya se está usando en un script o trabajo.

  • Force output to match labels (Forzar resultado para que las etiquetas coincidan) muestra si la transformación fuerza el resultado para que las etiquetas proporcionadas por el usuario coincidan.

  • La Spark version (versión de Spark) se relaciona con la versión de AWS Glue que eligió en Task run properties (Propiedades de ejecución de tarea) al agregar la transformación. Se recomienda AWS Glue 1.0 y Spark 2.4 para la mayoría de los clientes. Para obtener más información, consulte Versiones de AWS Glue.

Pestañas Historial, Estimación de la calidad y Etiquetas

Los detalles de la transformación incluirán la información que definió al crear la transformación. Para ver los detalles de una transformación, seleccione la transformación en la lista Machine learning transforms (Transformaciones de machine learning) y revise la información en las siguientes pestañas:

  • Historial

  • Estimar calidad

  • Etiquetas

Historial

La pestaña History (Historial) muestra su historial de ejecuciones de tareas de transformación. Se ejecutan varios tipos de tareas para enseñar a una transformación. Para cada tarea, las métricas de ejecución incluyen lo siguiente:

  • El Run ID (ID de ejecución) es un identificador creado por AWS Glue para cada una de las ejecuciones de esta tarea.

  • Task type (Tipo de tarea) muestra el tipo de ejecución de tareas.

  • Status (Estado) muestra el éxito de cada tarea que aparece con la ejecución más reciente en la parte superior.

  • En Error, se muestran los detalles de un mensaje de error si la ejecución no se ha realizado correctamente.

  • En Start time (Hora de inicio) se muestra la fecha y la hora (hora local) en que se inició la tarea.

  • En Hora de finalización se muestra la fecha y la hora (hora local) en que finalizó la tarea.

  • Logs (Registros) se vincula a los registros escritos en stdout para esta ejecución de trabajo.

    El enlace Logs te lleva a Amazon CloudWatch Logs. Aquí podrá ver los detalles sobre las tablas que creó en AWS Glue Data Catalog y los errores detectados. Puede administrar el período de retención de registros en la CloudWatch consola. La retención de registros predeterminada es Never Expire. Para obtener más información sobre cómo cambiar el período de retención, consulte Cambiar la retención de datos de registro en los CloudWatch registros en la Guía del usuario de Amazon CloudWatch Logs.

  • En Archivo de etiqueta se muestra un enlace a Amazon S3 para un archivo de etiquetado generado.

Estimar calidad

La pestaña Estimate quality (Estimar calidad) muestra las métricas que utiliza para medir la calidad de la transformación. Las estimaciones se calculan comparando las predicciones de coincidencia de transformación mediante un subconjunto de sus datos etiquetados con las etiquetas proporcionadas. Estas estimaciones son aproximadas. Puede invocar una ejecución de tareas de estimación de calidad para esta pestaña.

La pestaña Estimar calidad muestra las métricas de la última ejecución de Estimar calidad incluidas las siguientes propiedades:

  • El área bajo la curva Precision-Recall (Precisión-exhaustividad) es un único número que calcula el límite superior de la calidad general de la transformación. Es independiente de la elección realizada para el parámetro precisión-exhaustividad. Los valores más altos indican que cuenta con una compensación de precisión-exhaustividad más atractiva.

  • Precision (Precisión) indica la frecuencia con la que la transformación es correcta cuando predice una coincidencia.

  • Recall upper limit (Límite superior de exhaustividad) indica la frecuencia con la que la transformación predice la coincidencia en una coincidencia real.

  • F1 indica la exactitud de la transformación entre 0 y 1, donde 1 es la mejor exactitud. Para obtener más información, consulte Valor-F en Wikipedia.

  • La tabla Column importance (Importancia de columnas) muestra los nombres de columna y la puntuación de importancia para cada columna. La importancia de columna ayuda a comprender cómo contribuyen las columnas al modelo, al identificar qué columnas de los registros se están utilizando con mayor frecuencia para hacer la coincidencia. Estos datos pueden solicitarle que agregue o cambie el conjunto de etiquetas para aumentar o reducir la importancia de las columnas.

    La columna Importance (Importancia) proporciona una puntuación numérica para cada columna, como un decimal no mayor que 1,0.

Para obtener más información sobre cómo comprender las estimaciones de calidad frente a verdadera calidad, consulte Estimaciones de calidad frente a calidad end-to-end (verdadera).

Para obtener más información sobre cómo ajustar su transformación, consulte Ajuste de transformaciones de machine learning en AWS Glue.

Estimaciones de calidad frente a calidad end-to-end (verdadera)

AWS Glue estima la calidad de su transformación al presentar el modelo de machine learning interno con un número de pares de registros que proporcionó para las etiquetas de coincidencia, pero que el modelo no ha visto antes. Estas estimaciones de calidad son una función de la calidad del modelo de machine learning (que está influenciado por el número de registros que etiqueta para "enseñar" a la transformación). El end-to-end recuerdo verdadero (que no es calculado automáticamente por elML transform) también está influenciado por el mecanismo de ML transform filtrado que propone una amplia variedad de posibles coincidencias con el modelo de aprendizaje automático.

Puede ajustar este método de filtrado principalmente al especificar el valor de ajuste Costo inferior-exactitud. A medida que este valor de ajuste se acerca al valor que favorece la Exactitud, el sistema realiza una búsqueda más completa y más cara de pares de registro que pueden ser coincidencias. Se introducen más pares de registros en su modelo de aprendizaje automático y su ML transform memoria verdadera se acerca más a la métrica de recuperación estimada. end-to-end Como resultado, los cambios en la end-to-end calidad de las coincidencias debidos a cambios en la relación coste/precisión de las coincidencias no suelen reflejarse en la estimación de calidad.

Etiquetas

Las etiquetas son marcas que asigna a un recurso de AWS. Cada etiqueta consta de una clave y un valor opcional. Las etiquetas se pueden usar para buscar y filtrar los recursos o hacer un seguimiento de los costos de AWS.

Cómo enseñar a las transformaciones mediante el uso de etiquetas

Puede enseñar a la transformación de ML mediante etiquetas (ejemplos) al seleccionar Enseñar transformación en la página de detalles de la transformación de ML. Si enseña a su algoritmo de machine learning con ejemplos (denominados “etiquetas”), puede elegir las etiquetas existentes para usarlas o crear un archivo de etiquetado.


                La captura de pantalla muestra una pantalla de asistente para Enseñar a la transformación mediante el uso de etiquetas.
  • Etiquetado: si tiene etiquetas, elija Tengo etiquetas. Si no tiene etiquetas, puede continuar con el siguiente paso, es decir, generar un archivo de etiquetado.

  • Generar un archivo de etiquetado: AWS Glue extrae los registros de los datos de origen y sugiere posibles registros de coincidencias. Usted elige el bucket de Amazon S3 para almacenar el archivo de etiquetas generado. Elija Generar archivo de etiquetado para iniciar el proceso. Cuando haya terminado, elija Descargar archivo de etiquetado. El archivo descargado tendrá una columna de etiquetas en la que podrá rellenar las etiquetas.

  • Cargar etiquetas desde Amazon S3: elija el archivo de etiquetado completo del bucket de Amazon S3 en el que está almacenado el archivo de etiquetas. A continuación, elija agregar las etiquetas a las etiquetas existentes o sobrescribirlas. Seleccione Cargar archivo de etiquetado desde Amazon S3.