Trabajo con trabajos en la consola de AWS Glue - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Trabajo con trabajos en la consola de AWS Glue

Un flujo de trabajo en AWS Glue es la lógica de negocio que lleva a cabo el flujo de trabajo de extracción, transformación y carga (ETL). Puede crear trabajos en la sección ETL de la consola de AWS Glue.

Para ver los trabajos de que dispone, inicie sesión en laAWS Management Consoley abraAWS Glueconsola enhttps://console.aws.amazon.com/glue/. Después, seleccione pestaña Jobs (Trabajos) en AWS Glue. En la lista Jobs (Trabajos) se muestra la ubicación del script que se asocia a cada flujo de trabajo, cuando el flujo de trabajo se modificó por última vez, y la opción de marcador de flujo de trabajo actual.

En la lista Jobs (Trabajos), puede hacer lo siguiente:

  • Para iniciar un flujo de trabajo existente, elija Action (Acción) y, a continuación, elija Run job (Ejecutar flujo de trabajo).

  • Para detener un flujo de trabajo de Running o Starting, elija Action (Acción) y, a continuación, elija Stop job run (Detener ejecución de flujo de trabajo).

  • Para añadir disparadores que inicien un flujo de trabajo, elija Action (Acción) y Choose job triggers (Elegir disparadores de trabajos).

  • Para modificar un flujo de trabajo existente, elija Action (Acción) y, a continuación, elija Edit job (Editar flujo de trabajo) o Delete (Eliminar).

  • Para cambiar un script que se asocia a un flujo de trabajo, elija Action (Acción) y Edit script (Editar script).

  • Para restablecer la información de estado que almacena AWS Glue acerca de su flujo de trabajo, elija Action (Acción) y Reset job bookmark (Restablecer marcador de flujo de trabajo).

  • Para crear un punto de enlace de desarrollo con las propiedades de este flujo de trabajo, elija Action (Acción) y Create development endpoint (Crear punto de enlace de desarrollo).

Para añadir un nuevo flujo de trabajo a través de la consola

  1. Abra la consola de AWS Glue y elija la pestaña Jobs (Trabajos).

  2. Elija Add job (Añadir flujo de trabajo) y siga las instrucciones en el asistente Add job (adición de trabajos).

    Si decide hacer que AWS Glue genere un script para su flujo de trabajo, debe especificar las propiedades de flujo de trabajo, los orígenes de datos y los destinos de datos, así como comprobar el mapeo de esquemas de columnas de origen a columnas de destino. El script generado es un punto de partida para que añada código para realizar su flujo de trabajo de ETL. Compruebe el código en el script y modifíquelo para satisfacer sus necesidades empresariales.

    nota

    Para obtener instrucciones paso a paso para añadir un flujo de trabajo con un script generado, consulte el tutorial Add job (Añadir flujo de trabajo) en la consola.

    De forma opcional, puede agregar una configuración de seguridad a un flujo de trabajo para especificar opciones de cifrado en reposo.

    Si proporciona o crea el script, su flujo de trabajo define los orígenes, los destinos y las transformaciones. Sin embargo, debe especificar cualquier conexión que necesite el script en el flujo de trabajo. Para obtener información acerca de la creación de su propio script, consulte Proporcionar sus propios scripts personalizados.

nota

El flujo de trabajo asume los permisos de la IAM role (función de IAM) que especifica al crearla. Este rol de IAM debe tener permiso para extraer datos de su origen de datos y escribir en su destino. En la consola de AWS Glue solo se listan funciones de IAM que tienen asociada una política de confianza para el servicio principal de AWS Glue. Para obtener más información acerca de cómo proporcionar roles para AWS Glue, consulte Políticas basadas en la identidad.

Si el trabajo leeAWS KMSLos datos de Amazon Simple Storage Service (Amazon S3), luego elRol de IAMDebe tener permiso para descifrar en la clave de KMS. Para obtener más información, consulte Paso 2: Crear un rol de IAM para AWS Glue.

importante

Compruebe Solución de errores en AWS Glue para problemas conocidos al ejecutarse un trabajo.

Para obtener información acerca de las propiedades necesarias para cada flujo de trabajo, consulte Definición de propiedades de Job para trabajos de Spark.

Para obtener instrucciones paso a paso para añadir un flujo de trabajo con un script generado, consulte el tutorial Add job (Añadir flujo de trabajo) en la consola de AWS Glue.

Ver detalles del flujo de trabajo

Para ver los detalles de un flujo de trabajo, seleccione el flujo de trabajo en la lista Jobs (Trabajos) y revise la información en las siguientes pestañas:

  • Historial

  • Detalles

  • Script

  • Métricas

History

En la pestaña History (Historial) se muestra su historial de ejecuciones de flujo de trabajo y el grado de éxito que ha tenido un flujo de trabajo en el pasado. Para cada flujo de trabajo, las métricas de ejecución incluyen lo siguiente:

  • Run ID (ID de ejecución) es un identificador creado por AWS Glue para cada una de las ejecuciones de este flujo de trabajo.

  • En Retry attempt (Reintento) se muestra el número de intentos para trabajos que requerían el reintento automático por parte de AWS Glue.

  • En Run status (Estado de ejecución) se muestra el éxito de cada ejecución listada con la ejecución más reciente en la parte superior. Si un flujo de trabajo es de Running o de Starting, puede elegir el icono de acción en esta columna para detenerlo.

  • En Error, se muestran los detalles de un mensaje de error si la ejecución no se ha realizado correctamente.

  • Logs (Registros) se vincula a los registros escritos en stdout para esta ejecución de trabajo.

    LaRegistrosle lleva a Amazon CloudWatch Logs, donde puede ver todos los detalles acerca de las tablas que se crearon en elAWS Glue Data Catalogy cualquier error que se haya encontrado. Puede administrar su periodo de retención de registros en la consola de CloudWatch. La retención de registros predeterminada es Never Expire. Para obtener más información acerca de cómo cambiar el periodo de retención, consulteCambiar la retención de datos de registro en CloudWatch Logsen laGuía del usuario de Amazon CloudWatch Logs.

  • Error logs (Registros de errores) se vincula a los registros escritos en stderr para esta ejecución de trabajo.

    Este enlace le lleva a CloudWatch Logs, donde puede ver detalles acerca de los errores que se encontraron. Puede administrar su periodo de retención de registros en la consola de CloudWatch. La retención de registros predeterminada es Never Expire. Para obtener más información acerca de cómo cambiar el periodo de retención, consulteCambiar la retención de datos de registro en CloudWatch Logsen laGuía del usuario de Amazon CloudWatch Logs.

  • En Execution time (Tiempo de ejecución) se muestra el periodo de tiempo el que la ejecución de trabajo ha consumido recursos. El período se calcula a partir del momento en que la ejecución de flujo de trabajo comienza a consumir recursos hasta que finaliza.

  • Timeout (Tiempo de espera) muestra el tiempo de ejecución máximo durante el cual esta ejecución de flujo de trabajo puede consumir recursos antes de que se detenga y cambie al estado de tiempo de espera.

  • Delay (Retraso): muestra el umbral antes de enviar una notificación de retraso de flujo de trabajo. Cuando un tiempo de ejecución de flujo de trabajo alcanza este umbral,AWS Glue: envía una notificación («Glue Job Run Status») a CloudWatch Events.

  • En Triggered by (Activado por) se muestra el disparador que se activó para iniciar la ejecución de este trabajo.

  • En Start time (Hora de inicio) se muestra la fecha y la hora (hora local) en que se inició el flujo de trabajo.

  • En End time (Hora de finalización) se muestra la fecha y la hora (hora local) en que finalizó el flujo de trabajo.

Para una ejecución del trabajo específica, puede View run metrics (Ver métricas de ejecución), que muestra gráficos de métricas para la ejecución del trabajo seleccionada. Para obtener más información acerca de cómo activar métricas e interpretar los gráficos, consulte, consulteMonitoreo y depuración de trabajo.

Details

La pestaña Details (Detalles) incluye atributos de su flujo de trabajo. Le muestra los detalles acerca de la definición de flujo de trabajo y también lista los disparadores que pueden iniciar este flujo de trabajo. Cada vez que se activa uno de los disparadores de la lista, se inicia el flujo de trabajo. Para la lista de disparadores, en los detalles se incluye lo siguiente:

  • En Trigger name (Nombre del disparador) se muestran los nombres de los disparadores que inician este flujo de trabajo al activarse.

  • En Trigger type (Tipo de disparador) se lista el tipo de disparador que inicia este flujo de trabajo.

  • En Trigger status (Estado del disparador) se muestra si se crea, activa o desactiva el disparador.

  • En Trigger parameters (Parámetros del disparador) se muestran los parámetros que definen cuándo se activa el disparador.

  • En Jobs to trigger (Trabajos que se desencadenarán) se muestra la lista de trabajos que se inician al activarse este disparador.

nota

La pestaña Details (Detalles) no incluye la información de origen y de destino. Revise el script para ver los detalles de origen y de destino.

Script

La pestaña Script muestra el script que se ejecuta al iniciarse su flujo de trabajo. Puede invocar una vista Edit script (Editar script) desde esta pestaña. Para obtener más información acerca del editor de script en la consola de AWS Glue, consulte Trabajo con scripts en la consola de AWS Glue. Para obtener información sobre las funciones que se invocan en el script, consulte ProgramaAWSGlue scripts de ETL en Python.

Metrics

LaMétricasMuestra las métricas recopiladas cuando se ejecuta un trabajo y se activa la creación de perfiles. Se muestran los gráficos siguientes:

  • Movimiento de datos de ETL

  • Perfil de memoria: Conductores y ejecutores

Elija View additional metrics (Ver métricas adicionales) para mostrar los siguientes gráficos:

  • Movimiento de datos de ETL

  • Perfil de memoria: Conductores y ejecutores

  • Mezcla de datos entre los ejecutores

  • Carga de la CPU: Conductores y ejecutores

  • Ejecución de Job: Ejecutores activos, etapas completadas y número máximo de ejecutores necesarios

Los datos de estos gráficos se insertan en las métricas de CloudWatch si se configura el trabajo para recopilar métricas. Para obtener más información acerca de cómo activar métricas e interpretar los gráficos, consulte, consulteMonitoreo y depuración de trabajo.

ejemplo de gráfico de movimiento de datos de ETL

En el gráfico de movimiento de datos de ETL se muestran las siguientes métricas:


                        Gráfico de movimiento de datos de ETL en la pestaña Metrics (Métricas) de la pestañaAWS Glueconsola de .

ejemplo de gráfico de perfil de la memoria

En el gráfico de perfil de la memoria se muestran las siguientes métricas:


                        Gráfico de perfil de la memoria en la pestaña Metrics (Métricas) de laAWS Glueconsola de .

ejemplo de gráfico de mezcla de datos entre los ejecutores

En el gráfico Mezcla de datos entre los ejecutores se muestran las siguientes métricas:


                        Gráfico de mezcla de datos entre ejecutores en la pestaña Metrics (Métricas) de la pestañaAWS Glueconsola de .

ejemplo de gráfico de carga de la CPU

En el gráfico de carga de la CPU se muestran las siguientes métricas:


                        Gráfico de carga de la CPU en la pestaña Metrics (Métricas) de laAWS Glueconsola de .

ejemplo de gráfico de ejecución de trabajo

En el gráfico de ejecución de trabajo se muestran las siguientes métricas:


                        Gráfico de ejecución de flujo de Job en la pestaña Metrics (Métricas) de laAWS Glueconsola de .