Conceptos y características importantes - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Conceptos y características importantes

Registro y supervisión

AWS Glue tiene varias opciones de registro y supervisión. De forma predeterminada, AWS Glue envía los registros al grupo de aws-glue registros de Amazon CloudWatch. Estos registros incluyen información como la hora de inicio y finalización, los ajustes de configuración y cualquier error o advertencia que pueda haberse producido.

Además, los trabajos ETL de AWS Glue Spark ofrecen las siguientes opciones, que deben estar habilitadas para una supervisión avanzada:

  • Las métricas de trabajo informan de las métricas específicas del trabajo al espacio de AWS Glue nombres cada 30 segundos. CloudWatch Estas métricas específicas del trabajo, como los registros procesados, el tamaño total de los datos de entrada/salida y el tiempo de ejecución, proporcionan información sobre el rendimiento de un trabajo. Pueden ayudar a identificar los cuellos de botella o las oportunidades para optimizar las configuraciones.

  • El registro continuo transmite los registros de trabajos de Apache Spark en tiempo real al /aws-glue/jobs/logs-v2 grupo de registros. CloudWatch Al usar registros en tiempo real, puede monitorear dinámicamente los AWS Glue trabajos mientras están en ejecución.

  • La interfaz de usuario de Spark proporciona una interfaz web del servidor de historiales de Spark para ver información sobre el trabajo de Spark, como la cronología de los eventos de cada etapa, un gráfico acíclico dirigido y las variables del entorno del trabajo. Los registros de eventos de interfaz de usuario de Spark persistentes se almacenan en Amazon S3 y puede usarlos en tiempo real o después de que se haya completado el trabajo.

  • La Información sobre la ejecución de los trabajos simplifica la depuración y la optimización de los trabajos al detectar las excepciones comunes de Spark, realizar un análisis de la causa raíz y proporcionar acciones recomendadas para solucionar los problemas. La información se almacena en CloudWatch.

Automatización

AWS Glue proporciona dos formas principales de automatizar las tareas de ETL: los activadores y los flujos de trabajo.

AWS Glue desencadenantes

Cuando se AWS Glue activan, los disparadores inician tareas y rastreadores específicos. Se puede activar un desencadenador bajo demanda, en función de una programación predefinida o en función de eventos específicos. Puede usar desencadenadores para diseñar una cadena de trabajos y rastreadores dependientes. Para obtener más información, consulte Activadores de AWS Glue

AWS Glue flujos de trabajo

Para cargas de trabajo más complejas, puede usar los AWS Glue flujos de trabajo para crear gráficos acíclicos dirigidos y crear dependencias entre AWS Glue entidades independientes (activadores, rastreadores y tareas). Los flujos de trabajo también proporcionan una interfaz unificada en la que puede compartir parámetros, supervisar el progreso y solucionar problemas entre las entidades asociadas.

La configuración de muchas entidades asociadas en los AWS Glue flujos de trabajo puede resultar cada vez más compleja. Los desarrolladores pueden crear esquemas AWS Glue para compartir canalizaciones de datos complejas con científicos de datos y analistas de negocios. Estas plantillas permiten la creación coherente y repetible de AWS Glue flujos de trabajo, lo que permite abstraer los detalles técnicos.

Para obtener más información sobre los AWS Glue planos y los flujos de trabajo, consulte Realizar actividades de ETL complejas mediante esquemas y flujos de trabajo en. AWS Glue

Organizar AWS Glue trabajos con otros servicios AWS

Para obtener más opciones de automatización, AWS Glue se integra con otros AWS servicios AWS Lambda AWS Step Functions, como Amazon Managed Workflows for Apache Airflow (Amazon MWAA).

Para comparar los diferentes métodos de organización de los trabajos de AWS Glue ETL, consulte Cómo crear una canalización de datos excelente desde el punto de vista operativo.

Marcadores de trabajo

Los marcadores de tareas se AWS Glue utilizan para realizar un seguimiento del progreso de las tareas de ETL, lo que evita la necesidad de volver a procesar los datos en las siguientes ejecuciones de tareas. Cuando los marcadores de tareas están activados, AWS Glue mantiene un registro de los datos que ya se han procesado. Luego, con cada ejecución, procesa solo los datos nuevos del origen de datos. Para obtener más información, consulte Seguimiento de los datos procesados mediante marcadores de trabajo.