Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
La supervisión es importante para mantener la fiabilidad, la disponibilidad y el rendimiento de los recursos de SageMaker IA de Amazon. Para supervisar y solucionar problemas de rendimiento de la canalización de inferencias, utiliza los CloudWatch registros y los mensajes de error de Amazon. Para obtener información sobre las herramientas de monitoreo que proporciona la SageMaker IA, consulte. Herramientas para monitorear los AWS recursos aprovisionados mientras se usa Amazon AI SageMaker
Uso de métricas para monitorizar modelos de varios contenedores
Para supervisar los modelos de varios contenedores en Inference Pipelines, utilice Amazon. CloudWatch CloudWatchrecopila datos sin procesar y los procesa para convertirlos en métricas legibles y prácticamente en tiempo real. SageMaker Los puntos finales y los trabajos de formación en IA escriben CloudWatch métricas y registros en el AWS/SageMaker
espacio de nombres.
Las siguientes tablas muestran las métricas y dimensiones de los siguientes:
-
Invocaciones de punto de conexión
-
Trabajos de entrenamiento, trabajos de transformación por lotes e instancias de punto de conexión
Una dimensión es un par de nombre-valor que identifica una métrica de forma inequívoca. Puede asignar hasta 10 dimensiones a una métrica. Para obtener más información sobre la supervisión con CloudWatch, consulte. Métricas para monitorizar la SageMaker IA de Amazon con Amazon CloudWatch
Métricas de invocación de puntos de conexión
El espacio de nombres AWS/SageMaker
incluye las siguientes métricas de respuesta desde llamadas en InvokeEndpoint
.
Las métricas se notifican a intervalos de 1 minuto.
Métrica | Descripción |
---|---|
Invocation4XXErrors |
El número de solicitudes Unidades: ninguna Estadísticas válidas: |
Invocation5XXErrors |
El número de solicitudes Unidades: ninguna Estadísticas válidas: |
Invocations |
Las solicitudes de Para obtener el número total de solicitudes enviadas a un punto de conexión del modelo, utilice la estadística Unidades: ninguna Estadísticas válidas: |
InvocationsPerInstance |
El número de invocaciones de puntos finales enviadas a un modelo, normalizado Unidades: ninguna Estadísticas válidas: |
ModelLatency |
El tiempo que el modelo o modelos tardan en responder. Esto incluye el tiempo necesario para enviar la solicitud, para obtener la respuesta del contenedor de modelos y para completar la inferencia en el contenedor. ModelLatency es el tiempo total que tardan todos los contenedores en una canalización de inferencia.Unidades: microsegundos Estadísticas válidas: |
OverheadLatency |
El tiempo que se suma al tiempo necesario para responder a una solicitud de un cliente por parte de SageMaker AI en concepto de gastos generales. Unidades: microsegundos Estadísticas válidas: |
ContainerLatency |
El tiempo que tardó un contenedor de Inference Pipelines en responder, visto desde SageMaker AI. ContainerLatency incluye el tiempo que se tardó en enviar la solicitud, obtener la respuesta del contenedor del modelo y completar la inferencia en el contenedor.Unidades: microsegundos Estadísticas válidas: |
Dimensiones de las métricas de invocación de puntos de conexión
Dimensión | Descripción |
---|---|
EndpointName, VariantName, ContainerName |
Filtra las métricas de invocación de punto de conexión para |
En el caso de un punto final de proceso de inferencia, CloudWatch enumera las métricas de latencia por contenedor de su cuenta como métricas de contenedores de terminales y métricas de variantes de puntos finales en el espacio de nombres de SageMaker AI, de la siguiente manera. La métrica ContainerLatency
solo aparece para canalizaciones de inferencias.

Para cada punto de conexión y cada contenedor, las métricas de latencia muestran los nombres del contenedor, punto de conexión, variante y métrica.

Métricas de instancias de punto de conexión, trabajo de transformación por lotes y trabajo de entrenamiento
Los espacios de nombres /aws/sagemaker/TrainingJobs
, /aws/sagemaker/TransformJobs
y /aws/sagemaker/Endpoints
incluyen las siguientes métricas para los trabajos de entrenamiento y las instancias de punto de conexión.
Las métricas se notifican a intervalos de 1 minuto.
Métrica | Descripción |
---|---|
CPUUtilization |
El porcentaje de unidades de CPU usadas por los contenedores que se ejecutan en una instancia. El valor oscila entre el 0% y el 100% y se multiplica por el número de CPUs. Por ejemplo, si hay cuatro CPUs, Para los trabajos de entrenamiento, Para los trabajos de transformación por lotes, Para modelos de varios contenedores, Para variantes de punto de conexión, Unidad: porcentaje |
MemoryUtilization |
El porcentaje de memoria que utilizan los contenedores que se ejecutan en una instancia. Este valor oscila entre 0 % y 100 %. Para trabajos de entrenamiento, Para trabajos de transformación por lotes, MemoryUtilization es la suma de memoria utilizada por todos los contenedores que se ejecutan en la instancia.Para variantes de punto de conexión, Unidad: porcentaje |
GPUUtilization |
El porcentaje de unidades de GPU que utilizan los contenedores que se ejecutan en una instancia. Para trabajos de entrenamiento, Para trabajos de transformación por lotes, Para modelos de varios contenedores, Para variantes de punto de conexión, Unidad: porcentaje |
GPUMemoryUtilization |
El porcentaje de memoria de la GPU que utilizan los contenedores que se ejecutan en una instancia. GPUMemoryEl uso oscila entre el 0% y el 100% y se multiplica por el número de GPUs. Por ejemplo, si hay cuatro GPUs, Para trabajos de entrenamiento, Para trabajos de transformación por lotes, Para modelos de varios contenedores, Para variantes de punto de conexión, Unidad: porcentaje |
DiskUtilization |
El porcentaje de espacio en disco que utilizan los contenedores que se ejecutan en una instancia. DiskUtilization oscila entre el 0% y el 100%. Esta métrica no es compatible con los trabajos de transformación por lotes. Para trabajos de entrenamiento, Para variantes de punto de conexión, Unidad: porcentaje |
Dimensiones de métricas de instancias de punto de conexión, trabajo de transformación por lotes y trabajo de entrenamiento
Dimensión | Descripción |
---|---|
Host |
Para trabajos de entrenamiento, Para trabajos de transformación por lotes, Para los puntos de conexión, |
Para ayudarte a depurar tus tareas de formación, los puntos finales y las configuraciones del ciclo de vida de las instancias de cuadernos, la SageMaker IA también envía todo lo que un contenedor de algoritmos, un contenedor de modelos o una configuración del ciclo de vida de una instancia de cuaderno envíe a stdout
stderr
Amazon CloudWatch Logs. Puede utilizar esta información para depuración y para analizar el progreso.
Uso de registros para monitorizar una canalización de inferencia
En la siguiente tabla se enumeran los grupos de registros y los flujos de registros que la SageMaker IA envía a Amazon. CloudWatch
Un flujo de registro es una secuencia de eventos de registro que comparten la misma fuente. Cada fuente independiente de registros forma CloudWatch un flujo de registro independiente. Un grupo de registro es un grupo de flujos de registro que comparten la misma configuración de retención, monitorización y control de acceso.
Registros
Nombre del grupo de registro | Nombre del flujo de registro |
---|---|
/aws/sagemaker/TrainingJobs |
|
/aws/sagemaker/Endpoints/[EndpointName] |
|
|
|
|
|
/aws/sagemaker/NotebookInstances |
|
/aws/sagemaker/TransformJobs |
|
|
|
|
nota
SageMaker La IA crea el grupo de /aws/sagemaker/NotebookInstances
registros cuando se crea una instancia de bloc de notas con una configuración de ciclo de vida. Para obtener más información, consulte Personalización de una instancia de SageMaker bloc de notas mediante un script LCC.
Para obtener más información sobre el registro de SageMaker IA, consulteRegistra los grupos y las transmisiones que Amazon SageMaker AI envía a Amazon CloudWatch Logs.