Ejecución y monitorización de AWS Glue - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ejecución y monitorización de AWS Glue

Puede automatizar la ejecución de sus trabajos de ETL (extracción, transformación y carga). AWS Glue también proporciona métricas de rastreadores y trabajos que se pueden monitorear. Después de configurar AWS Glue Data Catalog con los metadatos necesarios, AWS Glue proporciona estadísticas sobre el estado de su entorno. Puede automatizar la invocación de rastreadores y trabajos con un programa basado en tiempo que esté basado en cron. También puede activar trabajos cuando se desencadena un disparador basado en eventos.

El objetivo principal de AWS Glue es proporcionar una forma más sencilla de extraer y transformar sus datos de origen a destino. Para conseguir este objetivo, los trabajos de ETL suelen seguir los pasos siguientes (tal y como se muestra en el diagrama que se indica a continuación):

  1. Un disparador se activa para ejecutar un flujo de trabajo. Este evento se puede configurar para que se ejecute de forma periódica o para dar respuesta a una dependencia.

  2. El flujo de trabajo extrae datos del origen. Si es necesario, las propiedades de la conexión se utilizan para obtener acceso a su origen.

  3. El flujo de trabajo transforma los datos con un script que usted ha creado y los valores de los argumentos. El script contiene el código Scala o PySpark Python que transforma los datos.

  4. Los datos transformados se cargan en los destinos de los datos. Si es necesario, las propiedades de la conexión se utilizan para obtener acceso al destino.

  5. Se recopilan estadísticas sobre la ejecución del flujo de trabajo y se escriben en el catálogo de datos.

En el siguiente diagrama se muestra el flujo de flujo de trabajo de ETL que contienen estos cinco pasos.


      Flujo de flujo de trabajo donde se muestra la extracción, transformación y carga deAWS Glueen 5 pasos básicos.

Herramientas de monitorización automatizadas

El monitoreo es una parte importante del mantenimiento de la fiabilidad, la disponibilidad y el desempeño de AWS Glue y otras soluciones de AWS. AWS ofrece herramientas de monitorización que puede utilizar para controlar a AWS Glue, informar cuando algo no funciona y realizar acciones automáticamente cuando proceda:

Puede utilizar las siguientes herramientas de monitorización automatizado para vigilar AWS Glue e informar cuando haya algún problema:

  • Amazon CloudWatch Eventsproporciona un flujo casi en tiempo real de eventos del sistema que describen los cambios que se producen enAWSde AWS. CloudWatch Events habilita una informática basada en eventos automatizada. Puede escribir reglas que vigilan determinados eventos y activan acciones automatizadas en otros servicios de AWS cuando estos eventos se producen. Para obtener más información, consulte la Guía del usuario de Amazon CloudWatch Events.

  • Amazon CloudWatch Logsle permite monitorizar, almacenar y acceder a sus archivos de registro desde instancias de Amazon EC2,AWS CloudTrail, y otras fuentes. CloudWatch Logs puede monitorear información en los registros y enviarle una notificación cuando se llega a determinados umbrales. También se pueden archivar los datos de los registros en un almacenamiento de larga duración. Para obtener más información, consulte laGuía del usuario de Amazon CloudWatch Logs.

  • AWS CloudTrailcaptura llamadas a la API de y eventos relacionados realizados por su nombre deAWSy entrega los archivos de registro al bucket de Amazon S3 que especifique. También se puede identificar qué usuarios y cuentas llaman a AWS, la dirección IP de origen desde la que se realizan las llamadas y el momento en que se efectúan las llamadas. Para obtener más información, consulte la Guía del usuario de AWS CloudTrail.