Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Supervisión de trabajos de Ray con métricas
AWS Gluefor Ray está en versión preliminar paraAWS Glue y está sujeto a cambios. |
Puede supervisar los trabajos de Ray mediante Amazon CloudWatch. CloudWatch recopila y procesa las métricas sin formato deAWS Glue en métricas legibles y casi en tiempo real. Puede utilizar la consola de AWS Glue para tareas de supervisión sencillas.
Para obtener información general sobre cómo supervisar AWS Glue, consulte SupervisiónAWS Glue mediante CloudWatch métricas de Amazon. Para una descripción general de cómo utilizar CloudWatch las métricas publicadas porAWS Glue, consulteMonitorización con Amazon CloudWatch.
Información general de las métricas de trabajos de Ray en CloudWatch
Publicamos las métricas de Ray cuando la supervisión detallada está habilitada en CloudWatch. Las métricas se publican en el espacio deGlue/Ray
CloudWatch nombres.
-
Métricas de la instancia
Publicamos métricas acerca del uso de la CPU, la memoria y el disco de las instancias asignadas a un trabajo. Estas métricas se identifican mediante características como
ExecutorId
,ExecutorType
yhost
. Estas métricas son un subconjunto de las métricas estándar de los CloudWatch agentes de Linux. Puede encontrar información sobre los nombres y características de las métricas en la CloudWatch documentación. Para más información, consulte Métricas que el CloudWatch agente ha recopilado. -
Métricas del clúster de Ray
Reenviamos las métricas de los procesos de Ray que ejecutan el script en este espacio de nombres. Las métricas disponibles pueden diferir según la versión de Ray. Para más información sobre qué versión de Ray está en ejecución en su trabajo, consulte Versiones de AWS Glue.
-
Ray recopila métricas por instancia con
reporter
de Ray. Los nombres de las métricas informadoras llevan el prefijo “ray_
”. Para más información sobre las métricas publicadas por el informador, consulte el código fuente de Rayen el GitHub sitio web. -
autoscaler
de Ray proporciona sus propias métricas y que publicamos. Los nombres de las métricas deautoscaler
llevan el prefijo “autoscaler_
”. Para más información sobre las métricas publicadas porautoscaler
, consulte el código fuente de Rayen el GitHub sitio web.
-
Consultar el código fuente de Ray en GitHub no proporciona información general integral de las métricas de Ray. El sistema de métricas de Ray subyacente no está documentado y está sujeto a cambios. No ofrecemos ninguna garantía adicional de que las métricas de Ray permanezcan iguales en todas las versiones de AWS Glue.
nota
No publicamos las métricas de Ray en el espacio de nombres de Glue/Job Metrics/
, que solo se usa para trabajos de ETL de AWS Glue.
Ejemplo: usar métricas de Ray para perfilar la memoria
Cuando necesite que un trabajo se haga más rápido, es importante entender por qué se lleva a cabo lentamente. Puede utilizar las métricas de AWS Glue para recopilar información sobre el rendimiento de un trabajo de Ray. Estas métricas están disponibles en la versión 4.0 de AWS Glue que proporciona Ray 2.0.
Métricas de la memoria de instancia
Tiene acceso a las siguientes métricas de instancia para los nodos de Ray.
ray_node_mem_total
: para comprender el valor de esta métrica, consulte el origen de Ray. En reporter_agent.py, podemos ver que este valor se da en bytes. ray_node_mem_used
: para comprender el valor de esta métrica, consulte el origen de Ray. En reporter_agent.py, podemos ver que este valor se da en bytes.
En CloudWatch, estas series métricas se pueden identificar de forma única mediante la combinaciónjobName
,jobRunId
yip
. Puede filtrar las métricas del espacio de nombres Glue/Ray
según estas características para recopilar información acerca de la ejecución de un trabajo en cuestión.
Si ray_node_mem_used
está cerca de ray_node_mem_total
, hay presión en la memoria. Esto plantea preguntas de seguimiento:
¿El escalador automático ha compensado la presión de la memoria?
Tiene acceso a la siguiente métrica del escalador automático, y a otras, para los trabajos de Ray.
autoscaler_started_nodes
: para comprender el valor de esta métrica, consulte el origen de Ray. En prom_metrics.p,ypodemos ver que este valor se da en nodos.
En CloudWatch, esta serie de métricas se puede identificar de forma única mediante la combinaciónjobName
yjobRunId
. Puede filtrar las métricas del espacio de nombres Glue/Ray
según estas características para recopilar información acerca de la ejecución de un trabajo en cuestión.
Al visualizar la cantidad de nodos en relación con la presión de la memoria a lo largo del tiempo, podemos ver si el escalador automático ha aliviado la presión de la memoria.
¿Hay un aumento en el uso de la memoria provocado por una tarea mal distribuida o todos los actores se comportan de manera similar?
Tiene acceso a las siguientes métricas para los trabajos de Ray. Ray distribuye el uso de la memoria entre las réplicas de los trabajos (raylets) y Plasma, una caché en memoria. Tendrá que acceder a las métricas de las dos para entender el uso de la memoria para cada tarea.
ray_raylet_mem
: para comprender el valor de esta métrica, consulte el origen de Ray. En reporter_agent.py, podemos ver que este valor se da en MB. ray_object_store_used_memory
: para comprender el valor de esta métrica, consulte el origen de Ray. En metric_defs.h, podemos ver que este valor se da en bytes.
Las réplicas de procesos de trabajo se identifican según jobName
, jobRunId
, ip
y pid
. Puede filtrar las métricas del espacio de nombres Glue/Ray
según estas características para recopilar información acerca de la ejecución de un trabajo en cuestión.
Al inspeccionar el uso de la memoria de las réplicas de procesos de trabajo específicas, puede decidir si las tareas están mal distribuidas o si, por lo general, la memoria está agotado.
Posibles resoluciones
Ahora tiene las herramientas para tomar decisiones informadas sobre cómo abordar la presión de la memoria en un trabajo de Ray. Por ejemplo, puede llevar a cabo algunas de las siguientes acciones para cambiar el uso de la memoria del trabajo. Una explicación de cuándo es adecuada cada acción está fuera del ámbito de este documento.
Mejore el rendimiento de su script.
Aumente la disponibilidad máxima del proceso de trabajo mediante la actualización de los parámetros del trabajo. Para obtener más información acerca de la actualización de los parámetros de trabajo de Ray, consulte Uso de los parámetros de trabajo en los trabajos de Ray.
Ajuste el uso de la caché de Plasma mediante la actualización de los parámetros del trabajo.
Supervisión de los trabajos de Ray en la consola de AWS Glue
Los gráficos de las métricas de ejecución del trabajo de AWS Glue Studio no se han actualizado para tener en cuenta las nuevas métricas de Ray en esta versión preliminar.