Trabajo con trabajos en la consola de AWS Glue - AWS Glue

Trabajo con trabajos en la consola de AWS Glue

Un flujo de trabajo en AWS Glue es la lógica empresarial que lleva a cabo el flujo de trabajo de extracción, transformación y carga (ETL). Puede crear trabajos en la sección ETL de la consola de AWS Glue.

Para ver los trabajos existentes, inicie sesión en la AWS Management Console y abra la consola de AWS Glue en https://console.aws.amazon.com/glue/. Después, seleccione pestaña Jobs (Trabajos) en AWS Glue. En la lista Jobs (Trabajos) se muestra la ubicación del script que se asocia a cada flujo de trabajo, cuando el flujo de trabajo se modificó por última vez, y la opción de marcador de flujo de trabajo actual.

En la lista Jobs (Trabajos), puede hacer lo siguiente:

  • Para iniciar un flujo de trabajo existente, elija Action (Acción) y, a continuación, elija Run job (Ejecutar flujo de trabajo).

  • Para detener un flujo de trabajo de Running o Starting, elija Action (Acción) y, a continuación, elija Stop job run (Detener ejecución de flujo de trabajo).

  • Para añadir disparadores que inicien un flujo de trabajo, elija Action (Acción) y Choose job triggers (Elegir disparadores de trabajos).

  • Para modificar un flujo de trabajo existente, elija Action (Acción) y, a continuación, elija Edit job (Editar flujo de trabajo) o Delete (Eliminar).

  • Para cambiar un script que se asocia a un flujo de trabajo, elija Action (Acción) y Edit script (Editar script).

  • Para restablecer la información de estado que almacena AWS Glue acerca de su flujo de trabajo, elija Action (Acción) y Reset job bookmark (Restablecer marcador de flujo de trabajo).

  • Para crear un punto de enlace de desarrollo con las propiedades de este flujo de trabajo, elija Action (Acción) y Create development endpoint (Crear punto de enlace de desarrollo).

Para añadir un nuevo flujo de trabajo a través de la consola

  1. Abra la consola de AWS Glue y elija la pestaña Jobs (Trabajos).

  2. Elija Add job (Añadir flujo de trabajo) y siga las instrucciones en el asistente Add job (adición de trabajos).

    Si decide hacer que AWS Glue genere un script para su flujo de trabajo, debe especificar las propiedades de flujo de trabajo, los orígenes de datos y los destinos de datos, así como comprobar el mapeo de esquemas de columnas de origen a columnas de destino. El script generado es un punto de partida para que añada código para realizar su flujo de trabajo de ETL. Compruebe el código en el script y modifíquelo para satisfacer sus necesidades empresariales.

    nota

    Para obtener instrucciones paso a paso para añadir un flujo de trabajo con un script generado, consulte el tutorial Add job (Añadir flujo de trabajo) en la consola.

    De forma opcional, puede agregar una configuración de seguridad a un flujo de trabajo para especificar opciones de cifrado en reposo.

    Si proporciona o crea el script, su flujo de trabajo define los orígenes, los destinos y las transformaciones. Sin embargo, debe especificar cualquier conexión que necesite el script en el flujo de trabajo. Para obtener información acerca de la creación de su propio script, consulte Proporcionar sus propios scripts personalizados.

nota

El flujo de trabajo asume los permisos de la IAM role (función de IAM) que especifica al crearla. Este rol de IAM debe tener permiso para extraer datos de su origen de datos y escribir en su destino. En la consola de AWS Glue solo se listan funciones de IAM que tienen asociada una política de confianza para el servicio principal de AWS Glue. Para obtener más información acerca de cómo proporcionar roles para AWS Glue, consulte Políticas con base en identidad.

Si el trabajo lee datos de Amazon Simple Storage Service (Amazon S3) con cifrado AWS KMS, entonces, el IAM role (Rol de IAM) debe contar con permisos de descifrado sobre la clave KMS. Para obtener más información, consulte Paso 2: creación de un rol de IAM para AWS Glue.

importante

Compruebe Solución de errores en AWS Glue para problemas conocidos al ejecutarse un trabajo.

Para obtener información acerca de las propiedades necesarias para cada flujo de trabajo, consulte Definición de propiedades de trabajo para trabajos de Spark.

Para obtener instrucciones paso a paso para añadir un flujo de trabajo con un script generado, consulte el tutorial Add job (Añadir flujo de trabajo) en la consola de AWS Glue.

Ver detalles del flujo de trabajo

Para ver los detalles de un flujo de trabajo, seleccione el flujo de trabajo en la lista Jobs (Trabajos) y revise la información en las siguientes pestañas:

  • Historial

  • Detalles

  • Script

  • Métricas

History

En la pestaña History (Historial) se muestra su historial de ejecuciones de flujo de trabajo y el grado de éxito que ha tenido un flujo de trabajo en el pasado. Para cada flujo de trabajo, las métricas de ejecución incluyen lo siguiente:

  • Run ID (ID de ejecución) es un identificador creado por AWS Glue para cada una de las ejecuciones de este flujo de trabajo.

  • En Retry attempt (Reintento) se muestra el número de intentos para trabajos que requerían el reintento automático por parte de AWS Glue.

  • En Run status (Estado de ejecución) se muestra el éxito de cada ejecución listada con la ejecución más reciente en la parte superior. Si un flujo de trabajo es de Running o de Starting, puede elegir el icono de acción en esta columna para detenerlo.

  • En Error, se muestran los detalles de un mensaje de error si la ejecución no se ha realizado correctamente.

  • Logs (Registros) se vincula a los registros escritos en stdout para esta ejecución de trabajo.

    El enlace Logs (Registros) lo lleva a Amazon CloudWatch Logs, donde puede ver todos los detalles acerca de las tablas que se crearon en AWS Glue Data Catalog y los errores que se encontraron. Puede administrar su periodo de retención de registros en la consola de CloudWatch. La retención de registros predeterminada es Never Expire. Para obtener más información sobre cómo cambiar el periodo de retención, consulte Cambiar la retención de datos de registro en CloudWatch Logs en la Guía del usuario de Amazon CloudWatch Logs.

  • Error logs (Registros de errores) se vincula a los registros escritos en stderr para esta ejecución de trabajo.

    Este enlace lo dirige a CloudWatch Logs, donde puede ver detalles acerca de los errores que se encontraron. Puede administrar su periodo de retención de registros en la consola de CloudWatch. La retención de registros predeterminada es Never Expire. Para obtener más información sobre cómo cambiar el periodo de retención, consulte Cambiar la retención de datos de registro en CloudWatch Logs en la Guía del usuario de Amazon CloudWatch Logs.

  • En Execution time (Tiempo de ejecución) se muestra el periodo de tiempo el que la ejecución de trabajo ha consumido recursos. El período se calcula a partir del momento en que la ejecución de flujo de trabajo comienza a consumir recursos hasta que finaliza.

  • Timeout (Tiempo de espera) muestra el tiempo de ejecución máximo durante el cual esta ejecución de flujo de trabajo puede consumir recursos antes de que se detenga y cambie al estado de tiempo de espera.

  • Delay (Retraso): muestra el umbral antes de enviar una notificación de retraso de flujo de trabajo. Cuando un tiempo de ejecución de trabajo alcanza este umbral, AWS Glue envía una notificación ("Glue Job Run Status [Estado de ejecución del trabajo de Glue]") a CloudWatch Events.

  • En Triggered by (Activado por) se muestra el disparador que se activó para iniciar la ejecución de este trabajo.

  • En Start time (Hora de inicio) se muestra la fecha y la hora (hora local) en que se inició el flujo de trabajo.

  • En End time (Hora de finalización) se muestra la fecha y la hora (hora local) en que finalizó el flujo de trabajo.

Para una ejecución del trabajo específica, puede View run metrics (Ver métricas de ejecución), que muestra gráficos de métricas para la ejecución del trabajo seleccionada. Para obtener más información acerca de cómo habilitar métricas e interpretar los gráficos, consulte Monitoreo y depuración de trabajo.

Details

La pestaña Details (Detalles) incluye atributos de su flujo de trabajo. Le muestra los detalles acerca de la definición de flujo de trabajo y también lista los disparadores que pueden iniciar este flujo de trabajo. Cada vez que se activa uno de los disparadores de la lista, se inicia el flujo de trabajo. Para la lista de disparadores, en los detalles se incluye lo siguiente:

  • En Trigger name (Nombre del disparador) se muestran los nombres de los disparadores que inician este flujo de trabajo al activarse.

  • En Trigger type (Tipo de disparador) se lista el tipo de disparador que inicia este flujo de trabajo.

  • En Trigger status (Estado del disparador) se muestra si se crea, activa o desactiva el disparador.

  • En Trigger parameters (Parámetros del disparador) se muestran los parámetros que definen cuándo se activa el disparador.

  • En Jobs to trigger (Trabajos que se desencadenarán) se muestra la lista de trabajos que se inician al activarse este disparador.

nota

La pestaña Details (Detalles) no incluye la información de origen y de destino. Revise el script para ver los detalles de origen y de destino.

Script

La pestaña Script muestra el script que se ejecuta al iniciarse su flujo de trabajo. Puede invocar una vista Edit script (Editar script) desde esta pestaña. Para obtener más información acerca del editor de script en la consola de AWS Glue, consulte Trabajo con scripts en la consola de AWS Glue. Para obtener información sobre las funciones que se invocan en el script, consulte Programación de scripts de ETL de AWS Glue en Python.

Metrics

La pestaña Metrics (Métricas) muestra las métricas recopiladas cuando se ejecuta un trabajo y se habilita la creación de perfiles. Se muestran los gráficos siguientes:

  • Movimiento de datos de ETL

  • Perfil de la memoria: controlador y ejecutores

Elija View additional metrics (Ver métricas adicionales) para mostrar los siguientes gráficos:

  • Movimiento de datos de ETL

  • Perfil de la memoria: controlador y ejecutores

  • Mezcla de datos entre los ejecutores

  • Carga de la CPU: controlador y ejecutores

  • Ejecución de trabajo: ejecutores activos, etapas completadas y número máximo de ejecutores necesarios

Los datos de estos gráficos se insertan en las métricas de CloudWatch si el trabajo se configura para recopilar métricas. Para obtener más información acerca de cómo habilitar métricas e interpretar los gráficos, consulte Monitoreo y depuración de trabajo.

ejemplo de gráfico de movimiento de datos de ETL

En el gráfico de movimiento de datos de ETL se muestran las siguientes métricas:


                        El gráfico de movimiento de datos de ETL en la pestaña Metrics (Métricas) de la consola de AWS Glue.

ejemplo de gráfico de perfil de la memoria

En el gráfico de perfil de la memoria se muestran las siguientes métricas:


                        El gráfico de perfil de la memoria en la pestaña Metrics (Métricas) de la consola de AWS Glue.

ejemplo de gráfico de mezcla de datos entre los ejecutores

En el gráfico Mezcla de datos entre los ejecutores se muestran las siguientes métricas:


                        El gráfico de mezcla de datos entre los ejecutores en la pestaña Metrics (Métricas) de la consola de AWS Glue.

ejemplo de gráfico de carga de la CPU

En el gráfico de carga de la CPU se muestran las siguientes métricas:


                        Gráfico de carga de la CPU en la pestaña Metrics (Métricas) de la consola de AWS Glue.

ejemplo de gráfico de ejecución de trabajo

En el gráfico de ejecución de trabajo se muestran las siguientes métricas:


                        El gráfico de ejecución de trabajo en la pestaña Metrics (Métricas) de la consola de AWS Glue.