Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Explore el panel de Amazon SageMaker Debugger Insights
Cuando inicias un trabajo de SageMaker formación, SageMaker Debugger comienza a monitorizar la utilización de los recursos de las EC2 instancias de Amazon de forma predeterminada. Puede realizar un seguimiento de las tasas de utilización del sistema, la descripción general de las estadísticas y el análisis de reglas integrado a través del panel de Información. Esta guía explica el contenido del panel de control de SageMaker Debugger Insights en las siguientes pestañas: Métricas y reglas del sistema.
nota
El panel de SageMaker Debugger Insights ejecuta una aplicación de Studio Classic en una ml.m5.4xlarge
instancia para procesar y renderizar las visualizaciones. Cada pestaña de SageMaker Debugger Insights ejecuta una sesión de kernel de Studio Classic. Se ejecutan varias sesiones de kernel para varias pestañas de SageMaker Debugger Insights en una sola instancia. Al cerrar una pestaña de SageMaker Debugger Insights, también se cierra la sesión del núcleo correspondiente. La aplicación de Studio Classic permanece activa y acumula cargos por el uso de la instancia ml.m5.4xlarge
. Para obtener información sobre los precios, consulta la página de precios de Amazon SageMaker AI
importante
Cuando termine de utilizar el panel de SageMaker Debugger Insights, cierre la ml.m5.4xlarge
instancia para evitar acumular cargos. Para obtener instrucciones sobre cómo conectarse a una instancia, consulte Cierre la instancia de Amazon SageMaker Debugger Insights.
importante
En los informes, los gráficos y las recomendaciones se proporcionan con fines informativos y no son definitivos. Es responsabilidad suya realizar su propia evaluación independiente de la información.
Métricas del sistema
En la pestaña Métricas del sistema, puede utilizar la tabla de resumen y los gráficos de series temporales para comprender la utilización de los recursos.
Resumen de utilización de recursos
En esta tabla resumida se muestran las estadísticas de las métricas de utilización de los recursos informáticos de todos los nodos (denominadas algo-n). Las métricas de utilización de recursos incluyen la utilización total de la CPU, la utilización total de la GPU, la utilización total de la memoria de la CPU, la utilización total de la memoria de la GPU, el tiempo total de espera de E/S y la red total en bytes. La tabla muestra los valores mínimo y máximo, así como los percentiles p99, p90 y p50.

Gráficos de series temporales de utilización de los recursos
Utilice los gráficos de series temporales para ver más detalles sobre la utilización de los recursos e identificar en qué intervalo de tiempo muestra cada instancia una tasa de utilización no deseada, como el bajo uso de la GPU y los cuellos de botella de la CPU que pueden provocar el desperdicio de la costosa instancia.
La interfaz de usuario del controlador de gráficos de series temporales
La siguiente captura de pantalla muestra el controlador de interfaz de usuario para ajustar los gráficos de series temporales.

-
algo-1: utilice este menú desplegable para elegir el nodo que desee examinar.
-
Ampliar: utilice este botón para ampliar los gráficos de series temporales y ver intervalos de tiempo más cortos.
-
Alejar: utilice este botón para alejar los gráficos de series temporales y ver intervalos de tiempo más amplios.
-
Desplazar hacia la izquierda: mueve los gráficos de series temporales a un intervalo de tiempo anterior.
-
Desplazamiento panorámico a la derecha: mueve los gráficos de series temporales a un intervalo de tiempo posterior.
-
Fijar marco temporal: utilice esta casilla de verificación para fijar o recuperar los gráficos de series temporales y mostrar la vista completa desde el primer punto de datos hasta el último punto de datos.
Utilización de la CPU y tiempo de espera de E/S
Los dos primeros gráficos muestran el uso de la CPU y el tiempo de espera de E/S a lo largo del tiempo. De forma predeterminada, los gráficos muestran el promedio de la tasa de utilización de la CPU y el tiempo de espera de E/S empleado en los núcleos de la CPU. Puede seleccionar uno o más núcleos de CPU seleccionando las etiquetas para graficarlos en un solo gráfico y comparar la utilización entre los núcleos. Puede arrastrar y acercar y alejar la imagen para ver más de cerca intervalos de tiempo específicos.

Utilización de la GPU y utilización de la memoria de la GPU
Los siguientes gráficos muestran el uso de la GPU y la utilización de la memoria de la GPU a lo largo del tiempo. De forma predeterminada, los gráficos muestran la tasa de utilización media a lo largo del tiempo. Puede seleccionar las etiquetas de los núcleos de la GPU para ver la tasa de utilización de cada núcleo. Si se toma la media de la tasa de utilización sobre el número total de núcleos de la GPU, se muestra la utilización media de todo el recurso del sistema de hardware. Al observar la tasa de utilización media, puedes comprobar el uso general de los recursos del sistema de una EC2 instancia de Amazon. En la siguiente figura, se muestra un ejemplo de trabajo de entrenamiento en una instancia ml.p3.16xlarge
con 8 núcleos de GPU. Puede supervisar si el trabajo de formación está bien distribuido y aprovecharlo todo al máximo GPUs.

Utilización general del sistema a lo largo del tiempo
El siguiente mapa de calor muestra un ejemplo del uso total de una instancia ml.p3.16xlarge
por parte del sistema a lo largo del tiempo, proyectado en el gráfico bidimensional. Todos los núcleos de la CPU y la GPU se muestran en el eje vertical y el uso se registra a lo largo del tiempo con una combinación de colores, en la que los colores brillantes representan un uso bajo y los colores más oscuros representan un uso elevado. Consulte la barra de colores etiquetada en el lado derecho del gráfico para averiguar qué nivel de color corresponde a qué tasa de utilización.

Reglas
Utilice la pestaña Reglas para encontrar un resumen del análisis de las reglas de creación de perfiles en su trabajo de entrenamiento. Si la regla de creación de perfiles está activada con el trabajo de entrenamiento, el texto aparece resaltado con el texto blanco continuo. Las reglas inactivas aparecen atenuadas en texto gris. Para activar estas reglas, siga las instrucciones recogidas en Utilice reglas de creación de perfiles integradas administradas por Amazon Debugger SageMaker .
