Ejecución y monitorización de AWS Glue - AWS Glue

Ejecución y monitorización de AWS Glue

Puede automatizar la ejecución de sus trabajos de ETL (extracción, transformación y carga). AWS Glue también proporciona métricas de rastreadores y trabajos que se pueden monitorear. Después de configurar AWS Glue Data Catalog con los metadatos necesarios, AWS Glue proporciona estadísticas sobre el estado de su entorno. Puede automatizar la invocación de rastreadores y trabajos con un programa basado en tiempo que esté basado en cron. También puede activar trabajos cuando se desencadena un disparador basado en eventos.

El objetivo principal de AWS Glue es proporcionar una forma más sencilla de extraer y transformar sus datos de origen a destino. Para conseguir este objetivo, los trabajos de ETL suelen seguir los pasos siguientes (tal y como se muestra en el diagrama que se indica a continuación):

  1. Un disparador se activa para ejecutar un flujo de trabajo. Este evento se puede configurar para que se ejecute de forma periódica o para dar respuesta a una dependencia.

  2. El flujo de trabajo extrae datos del origen. Si es necesario, las propiedades de la conexión se utilizan para obtener acceso a su origen.

  3. El flujo de trabajo transforma los datos con un script que usted ha creado y los valores de los argumentos. El script contiene el código Scala o PySpark Python que transforma los datos.

  4. Los datos transformados se cargan en los destinos de los datos. Si es necesario, las propiedades de la conexión se utilizan para obtener acceso al destino.

  5. Se recopilan estadísticas sobre la ejecución del trabajo y se escriben en el Datat Catalog.

En el siguiente diagrama se muestra el flujo de flujo de trabajo de ETL que contienen estos cinco pasos.


      Flujo de datos donde se muestra la extracción, transformación y carga en AWS Glue mediante 5 pasos básicos.

Herramientas de monitorización automatizadas

El monitoreo es una parte importante del mantenimiento de la fiabilidad, la disponibilidad y el desempeño de AWS Glue y otras soluciones de AWS. AWS ofrece herramientas de monitorización que puede utilizar para controlar a AWS Glue, informar cuando algo no funciona y realizar acciones automáticamente cuando proceda:

Puede utilizar las siguientes herramientas de monitorización automatizado para vigilar AWS Glue e informar cuando haya algún problema:

  • Amazon CloudWatch Events proporciona un flujo de eventos de sistema casi en tiempo real que describe cambios en los recursos de AWS. CloudWatch Events habilita una informática basada en eventos automatizada. Puede escribir reglas que vigilan determinados eventos y activan acciones automatizadas en otros servicios de AWS cuando estos eventos se producen. Para obtener más información, consulte la Guía del usuario de Amazon CloudWatch Events.

  • Amazon CloudWatch Logs le permite monitorear, almacenar y tener acceso a los archivos de registro desde instancias de Amazon EC2, AWS CloudTrail u otros orígenes. CloudWatch Logs puede monitorear información en los registros y enviarle una notificación cuando se llega a determinados umbrales. También se pueden archivar los datos de los registros en un almacenamiento de larga duración. Para obtener más información, consulte la Guía del usuario de Amazon CloudWatch Logs.

  • AWS CloudTrail captura llamadas a la API y eventos relacionados efectuados por su cuenta de AWS o en su nombre, y entrega los archivos de registro al bucket de Amazon S3 que se haya especificado. También se puede identificar qué usuarios y cuentas llaman a AWS, la dirección IP de origen desde la que se realizan las llamadas y el momento en que se efectúan las llamadas. Para obtener más información, consulte la Guía del usuario de AWS CloudTrail.