Ejecución y monitorización de AWS Glue
Puede automatizar la ejecución de sus trabajos de ETL (extracción, transformación y carga). AWS Glue también proporciona métricas de rastreadores y trabajos que se pueden monitorear. Después de configurar AWS Glue Data Catalog con los metadatos necesarios, AWS Glue proporciona estadísticas sobre el estado de su entorno. Puede automatizar la invocación de rastreadores y trabajos con un programa basado en tiempo que esté basado en cron. También puede activar trabajos cuando se desencadena un disparador basado en eventos.
El objetivo principal de AWS Glue es proporcionar una forma más sencilla de extraer y transformar sus datos de origen a destino. Para conseguir este objetivo, los trabajos de ETL suelen seguir los pasos siguientes (tal y como se muestra en el diagrama que se indica a continuación):
-
Un disparador se activa para ejecutar un flujo de trabajo. Este evento se puede configurar para que se ejecute de forma periódica o para dar respuesta a una dependencia.
El flujo de trabajo extrae datos del origen. Si es necesario, las propiedades de la conexión se utilizan para obtener acceso a su origen.
El flujo de trabajo transforma los datos con un script que usted ha creado y los valores de los argumentos. El script contiene el código Scala o PySpark Python que transforma los datos.
Los datos transformados se cargan en los destinos de los datos. Si es necesario, las propiedades de la conexión se utilizan para obtener acceso al destino.
Se recopilan estadísticas sobre la ejecución del trabajo y se escriben en el Datat Catalog.
En el siguiente diagrama se muestra el flujo de flujo de trabajo de ETL que contienen estos cinco pasos.

Temas
- Herramientas de monitorización automatizadas
- Programaciones basadas en tiempo para trabajos y rastreadores
- Seguimiento de los datos procesados mediante marcadores de trabajo
- Partición de cargas de trabajo con ejecución limitada
- AWS Etiquetas en AWS Glue
- Automatización de AWS Glue con CloudWatch Events
- Monitorización de trabajos mediante la interfaz de usuario web de Apache Spark
- AWS GlueAdministrador de mezclas aleatorias de Spark con Amazon S3
- Supervisión con Información de ejecuciones de trabajos de AWS Glue
- Monitorización con Amazon CloudWatch
- Monitoreo y depuración de trabajo
- Registro de llamadas a la API de AWS Glue con AWS CloudTrail
- Estados de ejecución de trabajos de AWS Glue
Herramientas de monitorización automatizadas
El monitoreo es una parte importante del mantenimiento de la fiabilidad, la disponibilidad y el desempeño de AWS Glue y otras soluciones de AWS. AWS ofrece herramientas de monitorización que puede utilizar para controlar a AWS Glue, informar cuando algo no funciona y realizar acciones automáticamente cuando proceda:
Puede utilizar las siguientes herramientas de monitorización automatizado para vigilar AWS Glue e informar cuando haya algún problema:
-
Amazon CloudWatch Events proporciona un flujo de eventos de sistema casi en tiempo real que describe cambios en los recursos de AWS. CloudWatch Events habilita una informática basada en eventos automatizada. Puede escribir reglas que vigilan determinados eventos y activan acciones automatizadas en otros servicios de AWS cuando estos eventos se producen. Para obtener más información, consulte la Guía del usuario de Amazon CloudWatch Events.
-
Amazon CloudWatch Logs le permite monitorear, almacenar y tener acceso a los archivos de registro desde instancias de Amazon EC2, AWS CloudTrail u otros orígenes. CloudWatch Logs puede monitorear información en los registros y enviarle una notificación cuando se llega a determinados umbrales. También se pueden archivar los datos de los registros en un almacenamiento de larga duración. Para obtener más información, consulte la Guía del usuario de Amazon CloudWatch Logs.
-
AWS CloudTrail captura llamadas a la API y eventos relacionados efectuados por su cuenta de AWS o en su nombre, y entrega los archivos de registro al bucket de Amazon S3 que se haya especificado. También se puede identificar qué usuarios y cuentas llaman a AWS, la dirección IP de origen desde la que se realizan las llamadas y el momento en que se efectúan las llamadas. Para obtener más información, consulte la Guía del usuario de AWS CloudTrail.