Estados de ejecución de tareas de AWS Glue en la consola
Puede ver el estado de un trabajo de extracción, transformación y carga (ETL) de AWS Glue mientras se está ejecutando o después de su detención. Puede ver el estado mediante la consola de AWS Glue. Para obtener más información acerca de los estados de ejecución de un trabajo, consulte Estados de ejecución de trabajos de AWS Glue.
Acceso al panel de monitoreo de trabajos
Para acceder al panel de supervisión de trabajos, seleccione el enlace Supervisión de ejecución de trabajos en el panel de navegación de AWS Glue debajo de Trabajos de ETL.
Información general del panel de monitoreo de trabajos
El panel de monitoreo de trabajos proporciona un resumen general de las ejecuciones de trabajos, con totales para los trabajos con un estado de En ejecución, Cancelado, Éxito o Error. Los mosaicos adicionales proporcionan la tasa general de éxito de ejecución del trabajo, el uso estimado de DPU para los trabajos, un desglose de los recuentos de estado del trabajo por tipo de trabajo, tipo de empleado y día.
Los gráficos de los mosaicos son interactivos. Puede elegir cualquier bloque de un gráfico para ejecutar un filtro que muestre sólo esos trabajos en la tabla Ejecuciones de trabajo de la parte inferior de la página.
Puede cambiar el intervalo de fechas de la información mostrada en esta página mediante el selector Intervalo de fechas. Al cambiar el intervalo de fechas, los mosaicos de información se ajustan para mostrar los valores según la cantidad especificada de días antes de la fecha actual. También puede utilizar un intervalo de fechas específico si elige Personalizado desde el selector de intervalo de fechas.
Vista de las ejecuciones de trabajo
nota
El historial de ejecución de trabajos está disponible durante 90 días para su flujo de trabajo y ejecución de trabajos.
La lista de recursos Ejecuciones de trabajo muestra los trabajos para el intervalo de fechas especificado y los filtros.
Puede filtrar los trabajos según criterios adicionales, como el estado, el tipo de empleado, el tipo de trabajo y el nombre del trabajo. En el cuadro de filtro situado en la parte superior de la tabla, puede introducir el texto que desea utilizar como filtro. Los resultados de la tabla se actualizan con filas que contienen texto coincidente a medida que se escribe el texto.
Puede ver un subconjunto de los trabajos cuando selecciona elementos de los gráficos del panel de monitoreo de trabajos. Por ejemplo, si elige el número de trabajos en ejecución en el mosaico Resumen de ejecuciones de trabajo, la lista Ejecuciones de trabajo muestra sólo los trabajos que actualmente tienen un estado de Running
. Si elige una de las barras del gráfico de barras Desglose por tipo de empleado, solo se muestran las ejecuciones de trabajos con el tipo y el estado de empleado coincidentes en la lista Ejecuciones de trabajo.
La lista de recursos Ejecuciones de trabajo muestra los detalles del trabajo. Puede ordenar las filas de la tabla si elige un encabezado de columna. Esta tabla contiene la siguiente información:
Propiedad | Descripción |
---|---|
Nombre de trabajo | El nombre del trabajo. |
Tipo |
El tipo del entorno de trabajo:
|
Hora de inicio |
La fecha y la hora en que se inició la ejecución de este flujo de trabajo. |
Hora de finalización |
La fecha y la hora en que se completó la ejecución de este trabajo. |
Estado de ejecución |
El estado actual de la ejecución de flujo de trabajo. Los valores pueden ser:
|
Tiempo de ejecución | El periodo de tiempo que la ejecución de flujo de trabajo consumió recursos. |
Capacidad |
El número de unidades de procesamiento de datos (DPU) de AWS Glue asignadas a esta ejecución de trabajo. Para obtener más información acerca de la planificación de capacidad, consulte Monitoreo para planificar la capacidad de DPU en la Guía para desarrolladores de AWS Glue. |
Tipo de empleado |
El tipo de empleado predefinido que se asigna cuando se ejecuta un trabajo. Los valores pueden ser
|
Horas de DPU |
El número estimado de DPU utilizadas para la ejecución de trabajo. Una DPU es una medida relativa de la potencia de procesamiento. Las DPU se utilizan para determinar el costo de ejecutar su trabajo. Para obtener más información, consulte la página de precios de AWS Glue |
Puede elegir cualquier ejecución de trabajo de la lista y ver información adicional. Elija una ejecución de trabajo y luego realice una de las operaciones siguientes:
-
Elija el menú Acciones y la opción Ver trabajo para ver el trabajo en el editor visual.
-
Elija el menú Acciones y la opción Detener ejecución para detener la ejecución actual del trabajo.
-
Elija el botón Ver registros de CloudWatch para ver los registros de ejecución de trabajo para ese trabajo.
-
Elija Ver detalles para ver la página de detalles de ejecución de trabajo.
Visualización de los registros de ejecución de trabajo
Puede ver los registros de trabajo de diversas formas:
-
En la página Monitoreo, en la tabla Ejecuciones de trabajo, elija una ejecución de trabajo y, a continuación, elija Ver registros de CloudWatch.
-
En el editor visual de trabajos, en la pestaña Ejecuciones para un trabajo, elija los hipervínculos para ver los registros:
-
Registros: enlaces a los registros de trabajo de Apache Spark escritos cuando se habilita el registro continuo para una ejecución de trabajo. Este enlace lo dirige a los registros de Amazon CloudWatch en el grupo de registros
/aws-glue/jobs/logs-v2
. De forma predeterminada, los registros excluyen los mensajes de registro de latido de Apache Hadoop YARN no útiles y de ejecutor o controlador de Apache Spark. Para obtener más información acerca del registro continuo, consulte Registro continuo para trabajos de AWS Glue en la Guía para desarrolladores de AWS Glue. -
Registros de errores: enlaza con los registros escritos en
stderr
para esta ejecución de trabajo. Este enlace lo dirige a los registros de Amazon CloudWatch en el grupo de registros/aws-glue/jobs/error
. Puede utilizar estos registros para ver detalles acerca de los errores que se encontraron durante la ejecución del trabajo. -
Registros de salida: enlaza con los registros escritos en
stdout
para esta ejecución de trabajo. Este enlace lo dirige a los registros de Amazon CloudWatch en el grupo de registros/aws-glue/jobs/output
. Puede utilizar esto registros para ver todos los detalles acerca de las tablas que se crearon en el AWS Glue Data Catalog y los errores que se encontraron.
-
Visualización de los detalles de una ejecución de trabajo
Puede elegir un trabajo de la lista Ejecuciones de trabajo en la página Monitoreo y, a continuación, elegir Ver detalles de la ejecución para ver información detallada sobre esa ejecución del trabajo.
La información que se muestra en la página detalles de ejecución de trabajo incluye lo siguiente:
Propiedad | Descripción |
---|---|
Nombre de trabajo | El nombre del trabajo. |
Estado de ejecución |
El estado actual de la ejecución de flujo de trabajo. Los valores pueden ser:
|
Versión de Glue | La versión de AWS Glue utilizada por la ejecución del trabajo. |
Intento reciente | El número de intentos de reintento automático para esta ejecución de trabajo. |
Hora de inicio |
La fecha y la hora en que se inició la ejecución de este flujo de trabajo. |
Hora de finalización |
La fecha y la hora en que se completó la ejecución de este trabajo. |
Hora de inicio |
El tiempo empleado en la preparación para ejecutar el trabajo. |
Hora de ejecución |
El tiempo empleado en la ejecución del script de trabajo. |
Nombre del disparador |
El nombre del desencadenador asociado con el trabajo. |
Hora de la última modificación |
La fecha en la que se modificó el trabajo por última vez. |
Configuración de seguridad |
La configuración de seguridad del trabajo, que incluye configuraciones de cifrado de Amazon S3, cifrado de CloudWatch y cifrado de marcadores de trabajo. |
Tiempo de espera | El valor del umbral de tiempo de espera de ejecución del trabajo. |
Capacidad asignada |
El número de unidades de procesamiento de datos (DPU) de AWS Glue asignadas a esta ejecución de trabajo. Para obtener más información acerca de la planificación de capacidad, consulte Monitoreo para planificar la capacidad de DPU en la Guía para desarrolladores de AWS Glue. |
Capacidad máxima |
La capacidad máxima disponible para la ejecución del trabajo. |
Número de procesos de trabajo | El número de empleados utilizados para la ejecución del trabajo. |
Tipo de empleado |
Tipo de empleados predefinidos asignados para la ejecución del trabajo. Los valores pueden ser
|
Registros | Un enlace a los registros de trabajo para el registro continuo (/aws-glue/jobs/logs-v2 ). |
Registros de salida | Un enlace a los archivos de registro de salida del trabajo (/aws-glue/jobs/output ). |
Registros de errores | Un enlace a los archivos de registro de error del trabajo (/aws-glue/jobs/error ). |
También puede ver los siguientes elementos adicionales, que también están disponibles al consultar la información de las ejecuciones de trabajos recientes. Para obtener más información, consulte Ver información sobre las ejecuciones de trabajos recientes.
Argumentos de entrada
Registros continuos
Métricas: puede ver visualizaciones de métricas básicas. Para obtener más información sobre las métricas incluidas, consulte Visualización de métricas de Amazon CloudWatch para una ejecución de trabajo de Spark.
Interfaz de usuario de Spark: puede visualizar los registros de Spark para su trabajo en la interfaz de usuario de Spark. Para obtener más información acerca de cómo usar la interfaz de usuario de Spark Web, consulte Monitorización de trabajos mediante la interfaz de usuario web de Apache Spark. Habilite esta característica; para ello, siga el procedimiento que se describe en Habilitación de la interfaz de usuario web de Apache Spark para trabajos de AWS Glue.
Visualización de métricas de Amazon CloudWatch para una ejecución de trabajo de Spark
En la página de detalles de una ejecución de trabajo, debajo de la sección Detalles de ejecución, puede consultar las métricas de trabajo. AWS Glue Studio las envía a Amazon CloudWatch para cada ejecución de trabajo.
AWS Glue notifica las métricas a Amazon CloudWatch cada 30 segundos. Las métricas de AWS Glue representan valores delta que se obtienen de los valores notificados con anterioridad. Si procede, los paneles de métricas acumulan (suman) los valores de 30 segundos para obtener un valor para el último minuto en su totalidad. Sin embargo, las métricas de Apache Spark que AWS Glue transfiere a Amazon CloudWatch, suelen ser valores absolutos que representan el estado actual en el momento en que se notifican.
nota
Debe configurar su cuenta para acceder a Amazon CloudWatch.
Las métricas proporcionan información sobre la ejecución de trabajo, como:
-
Movimiento de datos de ETL: número de bytes leídos o escritos en Amazon S3.
-
Perfil de la memoria: montón utilizado: el número de bytes de memoria utilizados por el montón de máquina virtual Java (JVM).
-
Perfil de la memoria: uso del montón: la fracción de memoria (escala: 0-1), mostrada como porcentaje, utilizada por el montón de JVM.
-
Carga de CPU: la fracción de carga del sistema de CPU usada (escala: 0-1), mostrada como porcentaje.
Visualización de métricas de Amazon CloudWatch para una ejecución de trabajo de Ray
En la página de detalles de una ejecución de trabajo, debajo de la sección Detalles de ejecución, puede consultar las métricas de trabajo. AWS Glue Studio las envía a Amazon CloudWatch para cada ejecución de trabajo.
AWS Glue notifica las métricas a Amazon CloudWatch cada 30 segundos. Las métricas de AWS Glue representan valores delta que se obtienen de los valores notificados con anterioridad. Si procede, los paneles de métricas acumulan (suman) los valores de 30 segundos para obtener un valor para el último minuto en su totalidad. Sin embargo, las métricas de Apache Spark que AWS Glue transfiere a Amazon CloudWatch, suelen ser valores absolutos que representan el estado actual en el momento en que se notifican.
nota
Debe configurar su cuenta para acceder a Amazon CloudWatch, tal y como se describe en .
En los trabajos de Ray, puede ver los siguientes gráficos de métricas agregadas. Con ellos, puede crear un perfil del clúster y sus tareas y acceder a información detallada sobre cada nodo. Los datos de serie temporal que respaldan estos gráficos están disponibles en CloudWatch para el análisis posterior.
- Perfil de la tarea: estado de la tarea
-
Muestra el número de tareas de Ray en el sistema. El ciclo de vida de cada tarea tiene su propia serie temporal.
- Perfil de la tarea: nombre de la tarea
-
Muestra el número de tareas de Ray en el sistema. Solo se muestran las tareas pendientes y activas. A cada tipo de tarea (por su nombre) se asigna su propia serie temporal.
- Perfil de clúster: CPU en uso
-
Muestra el número de núcleos de CPU que se utilizan. A cada nodo se asigna su propia serie temporal. Los nodos se identifican mediante direcciones IP, que son efímeras y solo se utilizan para identificación.
- Perfil de clúster: uso de memoria del almacén de objetos
-
Muestra el uso de memoria por parte de la caché de objetos de Ray. A cada ubicación de memoria (memoria física, almacenada en caché en el disco y volcada a Amazon S3) recibe su propia serie temporal. El almacén de objetos administra el almacenamiento de datos en todos los nodos del clúster. Para obtener más información, consulte Objetos
en la documentación de Ray. - Perfil de clúster: recuento de nodos
-
Muestra la cantidad de nodos aprovisionados para el clúster.
- Detalle del nodo: uso de la CPU
-
Muestra el uso de la CPU en cada nodo como porcentaje. Cada serie muestra un porcentaje agregado del uso de la CPU en todos los núcleos del nodo.
- Detalle del nodo: uso de memoria
-
Muestra el uso de memoria (en GB) en cada nodo. Cada serie muestra la memoria agregada entre todos los procesos del nodo, incluidas las tareas de Ray y el proceso de almacenamiento de Plasma. Esto no reflejará los objetos almacenados en el disco o volcados a Amazon S3.
- Detalle del nodo: uso del disco
-
Muestra el uso del disco (en GB) en cada nodo.
- Detalle del nodo: velocidad de E/S del disco
-
Muestra las E/S del disco (en kB/s) en cada nodo.
- Detalle del nodo: rendimiento de E/S de red
-
Muestra las E/S de red (en kB/s) en cada nodo.
- Detalle del nodo: uso de la CPU por el componente de Ray
-
Muestra el uso de la CPU en fracciones de un núcleo. A cada componente de Ray en cada nodo se asigna su propia serie temporal.
- Detalle del nodo: uso de la memoria por el componente de Ray
-
Muestra el uso de memoria en GiB. A cada componente de Ray en cada nodo se asigna su propia serie temporal.