Paneles de SageMaker HyperPod observabilidad de Amazon - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Paneles de SageMaker HyperPod observabilidad de Amazon

En este tema se describe cómo ver los paneles de métricas de tus clústeres de Amazon SageMaker HyperPod (SageMaker HyperPod) y cómo añadir nuevos usuarios a un panel. En este tema también se describen los distintos tipos de paneles.

Acceso a paneles

Para ver las métricas de su SageMaker HyperPod clúster en Amazon Managed Grafana, lleve a cabo los siguientes pasos:

  1. Abre la consola Amazon SageMaker AI en https://console.aws.amazon.com/sagemaker/.

  2. Ve a la página de detalles de tu clúster.

  3. En la pestaña Panel de control, localice la sección HyperPod Observabilidad y elija Abrir panel en Grafana.

Añadir nuevos usuarios a un espacio de trabajo de Grafana gestionado por Amazon

Para obtener información sobre cómo añadir usuarios a un espacio de trabajo de Grafana gestionado por Amazon, consulte Uso del Centro de Identidad de AWS IAM con su espacio de trabajo de Grafana gestionado por Amazon en la Guía del usuario de Amazon Managed Grafana.

Paneles de observabilidad

El complemento de SageMaker HyperPod observabilidad proporciona cinco paneles interconectados en tu espacio de trabajo predeterminado de Amazon Managed Grafana. Cada panel proporciona información detallada sobre los diferentes recursos y tareas de los clústeres para distintos usuarios, como científicos de datos, ingenieros de aprendizaje automático y administradores.

Panel de tareas

El panel de tareas proporciona una supervisión y visualización exhaustivas de las métricas de utilización de los recursos para SageMaker HyperPod las tareas. El panel principal muestra una tabla detallada que agrupa el uso de los recursos por tareas principales y muestra el uso de la CPU, la GPU y la memoria en todos los módulos. Los gráficos interactivos de series temporales registran el uso de la CPU, el consumo de memoria del sistema, los porcentajes de uso de la GPU y el uso de la memoria de la GPU en determinados módulos, lo que te permite monitorizar las tendencias de rendimiento a lo largo del tiempo. El panel incluye potentes funciones de filtrado a través de variables como el nombre del clúster, el espacio de nombres, el tipo de tarea y los módulos específicos, lo que facilita el análisis detallado de las cargas de trabajo específicas. Esta solución de monitoreo es esencial para optimizar la asignación de recursos y mantener el rendimiento de las cargas de trabajo de aprendizaje automático. SageMaker HyperPod

Panel de formación

El panel de formación proporciona un seguimiento exhaustivo de las métricas de salud, fiabilidad y gestión de fallos de las tareas de formación. El panel incluye indicadores clave de rendimiento, como el recuento de tareas creadas, las tasas de éxito y los porcentajes de tiempo de actividad, además de un seguimiento detallado de los reinicios automáticos y manuales. Ofrece visualizaciones detalladas de los patrones de averías mediante gráficos circulares y mapas térmicos que desglosan los incidentes por tipo y latencia de remediación, lo que permite identificar los problemas recurrentes y optimizar la fiabilidad de las tareas. La interfaz incluye la supervisión en tiempo real de métricas críticas, como los tiempos de recuperación del sistema y las latencias de detección de fallos, lo que la convierte en una herramienta esencial para mantener una alta disponibilidad de las cargas de trabajo de formación. Además, la ventana de seguimiento de 24 horas del panel proporciona un contexto histórico para analizar las tendencias y los patrones en el desempeño de las tareas de formación, lo que ayuda a los equipos a abordar de forma proactiva los posibles problemas antes de que afecten a las cargas de trabajo de producción.

Panel de inferencias

El panel de inferencias proporciona una supervisión exhaustiva del rendimiento de la implementación del modelo y las métricas de estado en múltiples dimensiones. Incluye una descripción detallada de las implementaciones activas, la supervisión en tiempo real de las tasas de solicitudes, los porcentajes de éxito y las métricas de latencia, lo que le permite realizar un seguimiento del rendimiento del servicio de modelos e identificar posibles cuellos de botella. El panel incluye paneles especializados tanto para métricas de inferencia generales como para métricas específicas de los modelos lingüísticos, como el tiempo transcurrido hasta el primer uso del token (TTFT) y el rendimiento del token, lo que lo hace especialmente valioso para supervisar las implementaciones de modelos lingüísticos de gran tamaño. Además, proporciona información sobre la infraestructura mediante el seguimiento de la asignación de nodos y módulos, al tiempo que ofrece funciones detalladas de análisis de errores para ayudar a mantener una alta disponibilidad y un alto rendimiento de las cargas de trabajo de inferencia.

Panel de control del clúster

El panel de control del clúster proporciona una visión integral del estado y el rendimiento del clúster, y ofrece visibilidad en tiempo real de los recursos de cómputo, memoria, red y almacenamiento en todo su entorno Amazon SageMaker HyperPod (SageMaker HyperPod). De un vistazo, puede ver las métricas más importantes, como el total de instancias, el uso de la GPU, el uso de la memoria y el rendimiento de la red, a través de una interfaz intuitiva que actualiza automáticamente los datos cada pocos segundos. El panel está organizado en secciones lógicas: comienza con una descripción general del clúster de alto nivel que muestra las métricas clave, como el porcentaje de instancias en buen estado y el recuento total de recursos, seguida de secciones detalladas sobre el rendimiento de la GPU, el uso de la memoria, las estadísticas de red y las métricas de almacenamiento. Cada sección incluye gráficos y paneles interactivos que te permiten desglosar métricas específicas, con intervalos de tiempo personalizables y opciones de filtrado por nombre de clúster, instancia o ID de GPU.

Panel de control del sistema de archivos

El panel del sistema de archivos proporciona una visibilidad completa de las métricas de rendimiento y estado del sistema de archivos (Amazon FSx for Lustre). El panel muestra las métricas de almacenamiento fundamentales, como la capacidad libre, los ahorros en la deduplicación, la CPU/memory utilización, las IOPS del disco, el rendimiento y las conexiones de los clientes en múltiples visualizaciones. Le permite monitorear tanto los indicadores de rendimiento a nivel del sistema, como el uso de la CPU y la memoria, como las métricas específicas del almacenamiento, como las operaciones y los patrones de uso del disco. read/write La interfaz incluye funciones de monitoreo de alertas y gráficos detallados de series temporales para rastrear las tendencias de rendimiento a lo largo del tiempo, lo que la convierte en una herramienta valiosa para el mantenimiento proactivo y la planificación de la capacidad. Además, gracias a su amplia cobertura de métricas, el panel ayuda a identificar posibles cuellos de botella, a optimizar el rendimiento del almacenamiento y a garantizar un funcionamiento fiable del sistema de archivos para las cargas de trabajo. SageMaker HyperPod