Métrica |
Descripción |
glue.driver.aggregate.bytesRead
|
El número de bytes leídos desde todos los orígenes de datos por todas las tareas de Spark completadas que se ejecutan en todos los ejecutores.
Dimensiones válidas:JobName (el nombre delAWS Glue Job),JobRunId (el JobRun identificador oALL ) yType (recuento).
Estadísticas válidas: SUMA. Esta métrica es un valor delta desde el último valor notificado, por lo que en el panel de métricas de AWS Glue, se utiliza una estadística SUMA para la agregación.
Unidades: bytes
Se puede utilizar para monitorear lo siguiente:
Esta métrica se puede utilizar de la misma manera que la métrica glue.ALL.s3.filesystem.read_bytes , con la diferencia de que esta métrica se actualiza al final de una tarea de Spark y también captura orígenes de datos que no son S3.
|
glue.driver.aggregate.elapsedTime
|
El tiempo transcurrido de ETL en milisegundos (no incluye los tiempos de arranque del trabajo).
Dimensiones válidas:JobName (el nombre delAWS Glue Job),JobRunId (el JobRun identificador oALL ) yType (recuento).
Estadísticas válidas: SUMA. Esta métrica es un valor delta desde el último valor notificado, por lo que en el panel de métricas de AWS Glue, se utiliza una estadística SUMA para la agregación.
Unidad: milisegundos
Puede utilizarse para determinar cuánto tiempo se tarda en ejecutar una ejecución de trabajo en promedio.
Algunas formas de usar los datos:
|
glue.driver.aggregate.numCompletedStages
|
Número de etapas completadas en este trabajo.
Dimensiones válidas:JobName (el nombre delAWS Glue Job),JobRunId (el JobRun identificador oALL ) yType (recuento).
Estadísticas válidas: SUMA. Esta métrica es un valor delta desde el último valor notificado, por lo que en el panel de métricas de AWS Glue, se utiliza una estadística SUMA para la agregación.
Unidad: recuento
Se puede utilizar para monitorear lo siguiente:
Algunas formas de usar los datos:
|
glue.driver.aggregate.numCompletedTasks
|
Número de etapas completadas en el trabajo.
Dimensiones válidas:JobName (el nombre delAWS Glue Job),JobRunId (el JobRun identificador oALL ) yType (recuento).
Estadísticas válidas: SUMA. Esta métrica es un valor delta desde el último valor notificado, por lo que en el panel de métricas de AWS Glue, se utiliza una estadística SUMA para la agregación.
Unidad: recuento
Se puede utilizar para monitorear lo siguiente:
|
glue.driver.aggregate.numFailedTasks
|
El número de tareas de servicio que han presentado un error.
Dimensiones válidas:JobName (el nombre delAWS Glue Job),JobRunId (el JobRun identificador oALL ) yType (recuento).
Estadísticas válidas: SUMA. Esta métrica es un valor delta desde el último valor notificado, por lo que en el panel de métricas de AWS Glue, se utiliza una estadística SUMA para la agregación.
Unidad: recuento
Se puede utilizar para monitorear lo siguiente:
Anomalías de datos que provocan un error en las tareas de trabajo. Anomalías de clúster que provocan un error en las tareas de trabajo. Anomalías de scripts que causan un error en las tareas de trabajo.
Los datos se pueden usar para establecer alarmas ante mayor cantidad de errores que podrían sugerir anomalías en los datos, clústeres o scripts.
|
glue.driver.aggregate.numKilledTasks
|
El número de tareas eliminadas.
Dimensiones válidas:JobName (el nombre delAWS Glue Job),JobRunId (el JobRun identificador oALL ) yType (recuento).
Estadísticas válidas: SUMA. Esta métrica es un valor delta desde el último valor notificado, por lo que en el panel de métricas de AWS Glue, se utiliza una estadística SUMA para la agregación.
Unidad: recuento
Se puede utilizar para monitorear lo siguiente:
Irregularidades en el sesgo de datos que dan lugar a excepciones (memoria insuficiente) que eliminan tareas. Irregularidades en los scripts que dan lugar a excepciones (memoria insuficiente) que eliminan tareas.
Algunas formas de usar los datos:
Establecer alarmas ante mayor cantidad de errores que indiquen anomalías en los datos. Establecer alarmas ante mayor cantidad de errores que indiquen anomalías en los clústeres. Establecer alarmas ante mayor cantidad de errores que indiquen anomalías en los scripts.
|
glue.driver.aggregate.recordsRead
|
Número de registros leídos de todos los orígenes de datos por todas las tareas de Spark completadas que se ejecutan en todos los ejecutores.
Dimensiones válidas:JobName (el nombre delAWS Glue Job),JobRunId (el JobRun identificador oALL ) yType (recuento).
Estadísticas válidas: SUMA. Esta métrica es un valor delta desde el último valor notificado, por lo que en el panel de métricas de AWS Glue, se utiliza una estadística SUMA para la agregación.
Unidad: recuento
Se puede utilizar para monitorear lo siguiente:
Esta métrica se puede utilizar de manera similar que la métrica glue.ALL.s3.filesystem.read_bytes , con la diferencia de que esta métrica se actualiza al final de una tarea de Spark.
|
glue.driver.aggregate.shuffleBytesWritten
|
El número de bytes que escriben todos los ejecutores para mezclar los datos en forma aleatoria entre ellos desde el informe anterior (acumulados por el panel de métricas de AWS Glue como el número de bytes escritos para este propósito durante el minuto anterior).
Dimensiones válidas:JobName (el nombre delAWS Glue Job),JobRunId (el JobRun identificador oALL ) yType (recuento).
Estadísticas válidas: SUMA. Esta métrica es un valor delta desde el último valor notificado, por lo que en el panel de métricas de AWS Glue, se utiliza una estadística SUMA para la agregación.
Unidades: bytes
Se puede utilizar para monitorear: mezclas aleatorias de datos en trabajos (combinaciones grandes, agrupados por, repartición, fusión).
Algunas formas de usar los datos:
Volver a particionar o descomprimir archivos de entrada grandes antes de procesarlos. Volver a particionar los datos de manera más uniforme para evitar las teclas de acceso rápido. Prefiltrar los datos antes de las combinaciones o las operaciones GroupBy (Agrupar por).
|
glue.driver.aggregate.shuffleLocalBytesRead
|
El número de bytes que leen todos los ejecutores para mezclar los datos en forma aleatoria entre ellos desde el informe anterior (acumulados por el panel de métricas de AWS Glue como el número de bytes leídos para este propósito durante el minuto anterior).
Dimensiones válidas:JobName (el nombre delAWS Glue Job),JobRunId (el JobRun identificador oALL ) yType (recuento).
Estadísticas válidas: SUMA. Esta métrica es un valor delta desde el último valor notificado, por lo que en el panel de métricas de AWS Glue, se utiliza una estadística SUMA para la agregación.
Unidades: bytes
Se puede utilizar para monitorear: mezclas aleatorias de datos en trabajos (combinaciones grandes, agrupados por, repartición, fusión).
Algunas formas de usar los datos:
Volver a particionar o descomprimir archivos de entrada grandes antes de procesarlos. Volver a particionar los datos de manera más uniforme con teclas de acceso rápido. Prefiltrar los datos antes de las combinaciones o las operaciones GroupBy (Agrupar por).
|
glue.driver.BlockManager.disk.diskSpaceUsed_MB
|
Número de megabytes de espacio en disco utilizado en todos los ejecutores.
Dimensiones válidas:JobName (el nombre delAWS Glue Job),JobRunId (el JobRun identificador oALL ) yType (calibre).
Estadísticas válidas: promedio. Esta es una métrica de Spark, notificada como un valor absoluto.
Unidades: megabytes
Se puede utilizar para monitorear lo siguiente:
Espacio en disco utilizado para bloques que representan particiones RDD almacenadas en caché. Espacio en disco utilizado para bloques que representan salidas de mezclas aleatorias intermedias. Espacio en disco utilizado para bloques que representan emisiones.
Algunas formas de usar los datos:
Identificar errores de trabajo debido a mayor uso del disco. Identificar grandes particiones que resulten en desbordamiento o mezclado aleatorio. Aumentar la capacidad de DPU aprovisionada para corregir estos problemas.
|
glue.driver.ExecutorAllocationManager.executors.numberAllExecutors
|
El número de ejecutores de trabajo que se ejecutan activamente.
Dimensiones válidas:JobName (el nombre delAWS Glue Job),JobRunId (el JobRun identificador oALL ) yType (calibre).
Estadísticas válidas: promedio. Esta es una métrica de Spark, notificada como un valor absoluto.
Unidad: recuento
Se puede utilizar para monitorear lo siguiente:
Algunas formas de usar los datos:
Volver a particionar o descomprimir archivos de entrada grandes por anticipado si el clúster está infrautilizado. Identificar retrasos en la ejecución de la etapa o del trabajo debido a escenarios rezagados. • Comparar con numberMaxNeeded los ejecutores para comprender las tareas pendientes para aprovisionar más DPU.
|
glue.driver.ExecutorAllocationManager.executors.numberMaxNeededExecutors
|
Número máximo de ejecutores de trabajos (en ejecución activa y pendientes) necesarios para satisfacer la carga actual.
Dimensiones válidas:JobName (el nombre delAWS Glue Job),JobRunId (el JobRun identificador oALL ) yType (calibre).
Estadísticas válidas: máximo. Esta es una métrica de Spark, notificada como un valor absoluto.
Unidad: recuento
Se puede utilizar para monitorear lo siguiente:
Algunas formas de usar los datos:
Identificar tareas pendientes/atrasadas de la cola de programación. Identificar retrasos en la ejecución de la etapa o del trabajo debido a escenarios rezagados. Comparar con numberAllExecutors para comprender las tareas pendientes para aprovisionar más DPU. Aumentar la capacidad de DPU aprovisionada para corregir el retraso del ejecutor pendiente.
|
glue.driver.jvm.heap.usage
glue. Id de ejecutor.jvm.heap.usage
glue.ALL.jvm.heap.usage
|
La fracción de memoria usada por el montón de JVM para este controlador (escala: 0-1), ejecutor identificado por el Id de ejecutor o TODOS los ejecutores.
Dimensiones válidas:JobName (el nombre delAWS Glue Job),JobRunId (el JobRun identificador oALL ) yType (calibre).
Estadísticas válidas: promedio. Esta es una métrica de Spark, notificada como un valor absoluto.
Unidad: porcentaje
Se puede utilizar para monitorear lo siguiente:
Algunas formas de usar los datos:
Identificar las etapas y los ID de los ejecutores que consumen memoria. Identificar los ID y las etapas de los ejecutores rezagados. Identificar una out-of-memory condición de controlador (OOM). Identificar una out-of-memory condición de ejecutor (OOM) y obtener el ID de ejecutor correspondiente para poder obtener un seguimiento de pila del registro del ejecutor. Identificar los archivos o particiones que pueden tener un sesgo de datos, lo que resulta en rezagos o out-of-memory condiciones (OOM).
|
glue.driver.jvm.heap.used
glue. Id de ejecutor.jvm.heap.used
glue.ALL.jvm.heap.used
|
El número de bytes de memoria utilizados por el montón de JVM para el controlador, el ejecutor identificado por Id de ejecutor, o TODOS los ejecutores.
Dimensiones válidas:JobName (el nombre delAWS Glue Job),JobRunId (el JobRun identificador oALL ) yType (calibre).
Estadísticas válidas: promedio. Esta es una métrica de Spark, notificada como un valor absoluto.
Unidades: bytes
Se puede utilizar para monitorear lo siguiente:
Algunas formas de usar los datos:
Identificar las etapas y los ID de los ejecutores que consumen memoria. Identificar los ID y las etapas de los ejecutores rezagados. Identificar una out-of-memory condición de controlador (OOM). Identificar una out-of-memory condición de ejecutor (OOM) y obtener el ID de ejecutor correspondiente para poder obtener un seguimiento de pila del registro del ejecutor. Identificar los archivos o particiones que pueden tener un sesgo de datos, lo que resulta en rezagos o out-of-memory condiciones (OOM).
|
glue.driver.s3.filesystem.read_bytes
glue. Id de ejecutor.s3.filesystem.read_bytes
glue.ALL.s3.filesystem.read_bytes
|
El número de bytes leídos desde Amazon S3 por el controlador, un ejecutor identificado por Id de ejecutor, o TODOS los ejecutores desde el informe anterior (acumulados por el panel de métricas de AWS Glue como número de bytes leídos durante el minuto anterior).
Dimensiones válidas: JobName , JobRunId , y Type (calibre).
Estadísticas válidas: SUMA. Esta métrica es un valor delta desde el último valor notificado, por lo que en el panel de métricas de AWS Glue, se utiliza una estadística SUM para la agregación. El área bajo la curva en el panel de métricas de AWS Glue se puede utilizar para comparar visualmente los bytes leídos por dos ejecuciones de trabajos diferentes.
Unidad: bytes.
Se puede utilizar para monitorear lo siguiente:
Movimiento de datos de ETL. Progreso del trabajo. Problemas de marcadores de trabajos (datos procesados, reprocesados y omitidos). Comparación de lecturas con la tasa de ingesta de orígenes de datos externos. Desviación entre ejecuciones de trabajos.
Los datos resultantes se pueden utilizar para lo siguiente:
|
glue.driver.s3.filesystem.write_bytes
glue. Id de ejecutor.s3.filesystem.write_bytes
glue.ALL.s3.filesystem.write_bytes
|
El número de bytes que escribe el controlador en Amazon S3, un ejecutor identificado por Id de ejecutor, o TODOS los ejecutores desde el informe anterior (agregados por el panel de métricas de AWS Glue como número de bytes escritos durante el minuto anterior).
Dimensiones válidas: JobName , JobRunId , y Type (calibre).
Estadísticas válidas: SUMA. Esta métrica es un valor delta desde el último valor notificado, por lo que en el panel de métricas de AWS Glue, se utiliza una estadística SUM para la agregación. El área bajo la curva en el panel de métricas de AWS Glue se puede utilizar para comparar visualmente los bytes escritos por dos ejecuciones de trabajos diferentes.
Unidades: bytes
Se puede utilizar para monitorear lo siguiente:
Movimiento de datos de ETL. Progreso del trabajo. Problemas de marcadores de trabajos (datos procesados, reprocesados y omitidos). Comparación de lecturas con la tasa de ingesta de orígenes de datos externos. Desviación entre ejecuciones de trabajos.
Algunas formas de usar los datos:
|
glue.driver.streaming.numRecords
|
El número de registros que se reciben en un microlote. Esta métrica solo está disponible para trabajos de streaming de AWS Glue con la versión AWS Glue 2.0 y superior.
Dimensiones válidas:JobName (el nombre delAWS Glue trabajo),JobRunId (el JobRun identificador oALL ) yType (recuento).
Estadísticas válidas: suma, máximo, mínimo, promedio, percentilo
Unidad: recuento
Se puede utilizar para monitorear lo siguiente:
Registros leídos. Progreso del trabajo.
|
glue.driver.streaming.batchProcessingTimeInMs
|
El tiempo que se tarda en procesar los lotes en milisegundos. Esta métrica solo está disponible para trabajos de streaming de AWS Glue con la versión AWS Glue 2.0 y superior.
Dimensiones válidas:JobName (el nombre delAWS Glue trabajo),JobRunId (el JobRun identificador oALL ) yType (recuento).
Estadísticas válidas: suma, máximo, mínimo, promedio, percentilo
Unidad: recuento
Se puede utilizar para monitorear lo siguiente:
Progreso del trabajo. Rendimiento del script.
|
glue.driver.system.cpuSystemLoad
glue. Id de ejecutor.system.cpuSystemLoad
glue.ALL.system.cpuSystemLoad
|
Fracción de la carga del sistema de CPU usada (escala: 0-1) por el controlador, un ejecutor identificado por Id de ejecutor, o TODOS los ejecutores.
Dimensiones válidas:JobName (el nombre delAWS Glue trabajo),JobRunId (el JobRun identificador oALL ) yType (calibre).
Estadísticas válidas: promedio. Esta métrica se notifica como un valor absoluto.
Unidad: porcentaje
Se puede utilizar para monitorear lo siguiente:
Carga de CPU del controlador. Carga de CPU del ejecutor. Detección de ejecutores o etapas vinculados a la CPU o vinculados a entradas/salidas en un trabajo.
Algunas formas de usar los datos:
Planificación de la capacidad de DPU junto con métricas de entrada/salida (bytes de lectura/bytes de mezcla aleatoria, paralelismo de tareas) y la métrica del número máximo de ejecutores necesarios. Identificación de la relación vinculada a CPU y entrada/salida. Esto permite la repartición y el aumento de la capacidad aprovisionada para trabajos de ejecución prolongada con conjuntos de datos que pueden dividirse y ocupan menor capacidad de uso de la CPU.
|