Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Registros y métricas de canalización de inferencias

Modo de enfoque
Registros y métricas de canalización de inferencias - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

La supervisión es importante para mantener la fiabilidad, la disponibilidad y el rendimiento de los recursos de SageMaker IA de Amazon. Para supervisar y solucionar problemas de rendimiento de la canalización de inferencias, utiliza los CloudWatch registros y los mensajes de error de Amazon. Para obtener información sobre las herramientas de monitoreo que proporciona la SageMaker IA, consulte. Herramientas para monitorear los AWS recursos aprovisionados mientras se usa Amazon AI SageMaker

Uso de métricas para monitorizar modelos de varios contenedores

Para supervisar los modelos de varios contenedores en Inference Pipelines, utilice Amazon. CloudWatch CloudWatchrecopila datos sin procesar y los procesa para convertirlos en métricas legibles y prácticamente en tiempo real. SageMaker Los puntos finales y los trabajos de formación en IA escriben CloudWatch métricas y registros en el AWS/SageMaker espacio de nombres.

Las siguientes tablas muestran las métricas y dimensiones de los siguientes:

  • Invocaciones de punto de conexión

  • Trabajos de entrenamiento, trabajos de transformación por lotes e instancias de punto de conexión

Una dimensión es un par de nombre-valor que identifica una métrica de forma inequívoca. Puede asignar hasta 10 dimensiones a una métrica. Para obtener más información sobre la supervisión con CloudWatch, consulte. Métricas para monitorizar la SageMaker IA de Amazon con Amazon CloudWatch

Métricas de invocación de puntos de conexión

El espacio de nombres AWS/SageMaker incluye las siguientes métricas de respuesta desde llamadas en InvokeEndpoint .

Las métricas se notifican a intervalos de 1 minuto.

Métrica Descripción
Invocation4XXErrors

El número de solicitudes InvokeEndpoint para el que el modelo devolvió un código de respuesta HTTP 4xx. Para cada 4xx respuesta, la SageMaker IA envía un1.

Unidades: ninguna

Estadísticas válidas: Average, Sum

Invocation5XXErrors

El número de solicitudes InvokeEndpoint para el que el modelo devolvió un código de respuesta HTTP 5xx. Para cada 5xx respuesta, la SageMaker IA envía un1.

Unidades: ninguna

Estadísticas válidas: Average, Sum

Invocations

Las solicitudes de number of InvokeEndpoint enviadas a un punto de conexión del modelo.

Para obtener el número total de solicitudes enviadas a un punto de conexión del modelo, utilice la estadística Sum.

Unidades: ninguna

Estadísticas válidas: Sum, Sample Count

InvocationsPerInstance

El número de invocaciones de puntos finales enviadas a un modelo, normalizado InstanceCount en cada una de ellas. ProductionVariant SageMaker La IA envía 1/ numberOfInstances como valor para cada solicitud, que numberOfInstances es el número de instancias activas ProductionVariant en el punto final en el momento de la solicitud.

Unidades: ninguna

Estadísticas válidas: Sum

ModelLatency El tiempo que el modelo o modelos tardan en responder. Esto incluye el tiempo necesario para enviar la solicitud, para obtener la respuesta del contenedor de modelos y para completar la inferencia en el contenedor. ModelLatency es el tiempo total que tardan todos los contenedores en una canalización de inferencia.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count

OverheadLatency

El tiempo que se suma al tiempo necesario para responder a una solicitud de un cliente por parte de SageMaker AI en concepto de gastos generales. OverheadLatencyse mide desde el momento en que SageMaker AI recibe la solicitud hasta que devuelve una respuesta al cliente, menos elModelLatency. La latencia de sobrecargas puede variar en función de los tamaños de carga de solicitud y respuesta, la frecuencia de solicitud y la autenticación o la autorización de la solicitud, entre otros factores.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count

ContainerLatency El tiempo que tardó un contenedor de Inference Pipelines en responder, visto desde SageMaker AI. ContainerLatencyincluye el tiempo que se tardó en enviar la solicitud, obtener la respuesta del contenedor del modelo y completar la inferencia en el contenedor.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count

Dimensiones de las métricas de invocación de puntos de conexión

Dimensión Descripción
EndpointName, VariantName, ContainerName

Filtra las métricas de invocación de punto de conexión para ProductionVariant en el punto de conexión especificado y para la variante especificada.

En el caso de un punto final de proceso de inferencia, CloudWatch enumera las métricas de latencia por contenedor de su cuenta como métricas de contenedores de terminales y métricas de variantes de puntos finales en el espacio de nombres de SageMaker AI, de la siguiente manera. La métrica ContainerLatency solo aparece para canalizaciones de inferencias.

El CloudWatch panel de control de una canalización de inferencias.

Para cada punto de conexión y cada contenedor, las métricas de latencia muestran los nombres del contenedor, punto de conexión, variante y métrica.

Las métricas de latencia de un punto de conexión.

Métricas de instancias de punto de conexión, trabajo de transformación por lotes y trabajo de entrenamiento

Los espacios de nombres /aws/sagemaker/TrainingJobs, /aws/sagemaker/TransformJobs y /aws/sagemaker/Endpoints incluyen las siguientes métricas para los trabajos de entrenamiento y las instancias de punto de conexión.

Las métricas se notifican a intervalos de 1 minuto.

Métrica Descripción
CPUUtilization

El porcentaje de unidades de CPU usadas por los contenedores que se ejecutan en una instancia. El valor oscila entre el 0% y el 100% y se multiplica por el número de CPUs. Por ejemplo, si hay cuatro CPUs, CPUUtilization puede oscilar entre el 0% y el 400%.

Para los trabajos de entrenamiento, CPUUtilization es la utilización de la CPU del contenedor de algoritmos que se ejecutan en la instancia.

Para los trabajos de transformación por lotes, CPUUtilization es la utilización de la CPU del contenedor de transformación que se ejecuta en la instancia.

Para modelos de varios contenedores, CPUUtilization es la suma de la utilización de CPU por parte de todos los contenedores que se ejecutan en la instancia.

Para variantes de punto de conexión, CPUUtilization es la suma de la utilización de CPU por parte de todos los contenedores que se ejecutan en la instancia.

Unidad: porcentaje

MemoryUtilization

El porcentaje de memoria que utilizan los contenedores que se ejecutan en una instancia. Este valor oscila entre 0 % y 100 %.

Para trabajos de entrenamiento, MemoryUtilization es la memoria utilizada por el contenedor de algoritmos que se ejecuta en la instancia.

Para trabajos de transformación por lotes, MemoryUtilization es la memoria utilizada por el contenedor de transformación que se ejecuta en la instancia.

Para modelos de varios contenedores, MemoryUtilization es la suma de memoria utilizada por todos los contenedores que se ejecutan en la instancia.

Para variantes de punto de conexión, MemoryUtilization es la suma de memoria utilizada por todos los contenedores que se ejecutan en la instancia.

Unidad: porcentaje

GPUUtilization

El porcentaje de unidades de GPU que utilizan los contenedores que se ejecutan en una instancia. GPUUtilizationoscila entre el 0% y el 100% y se multiplica por el número de GPUs. Por ejemplo, si hay cuatro GPUs, GPUUtilization puede oscilar entre el 0% y el 400%.

Para trabajos de entrenamiento, GPUUtilization es la GPU que utiliza el contenedor de algoritmo que se ejecuta en la instancia.

Para trabajos de transformación por lotes, GPUUtilization es la GPU utilizada por el contenedor de transformación que se ejecuta en la instancia.

Para modelos de varios contenedores, GPUUtilization es la suma de GPU utilizada por todos los contenedores que se ejecutan en la instancia.

Para variantes de punto de conexión, GPUUtilization es la suma de GPU utilizada por todos los contenedores que se ejecutan en la instancia.

Unidad: porcentaje

GPUMemoryUtilization

El porcentaje de memoria de la GPU que utilizan los contenedores que se ejecutan en una instancia. GPUMemoryEl uso oscila entre el 0% y el 100% y se multiplica por el número de GPUs. Por ejemplo, si hay cuatro GPUs, GPUMemoryUtilization puede oscilar entre el 0% y el 400%.

Para trabajos de entrenamiento, GPUMemoryUtilization es la memoria de GPU utilizada por el contenedor de algoritmos que se ejecuta en la instancia.

Para trabajos de transformación por lotes, GPUMemoryUtilization es la memoria de GPU utilizada por el contenedor de transformación que se ejecuta en la instancia.

Para modelos de varios contenedores, GPUMemoryUtilization es la suma de GPU utilizados por todos los contenedores que se ejecutan en la instancia.

Para variantes de punto de conexión, GPUMemoryUtilization es la suma de la memoria de GPU utilizada por todos los contenedores que se ejecutan en la instancia.

Unidad: porcentaje

DiskUtilization

El porcentaje de espacio en disco que utilizan los contenedores que se ejecutan en una instancia. DiskUtilization oscila entre el 0% y el 100%. Esta métrica no es compatible con los trabajos de transformación por lotes.

Para trabajos de entrenamiento, DiskUtilization es el espacio en disco utilizado por el contenedor de algoritmos que se ejecuta en la instancia.

Para variantes de punto de conexión, DiskUtilization es la suma de espacio en disco utilizado por todos los contenedores proporcionados que se ejecutan en la instancia.

Unidad: porcentaje

Dimensiones de métricas de instancias de punto de conexión, trabajo de transformación por lotes y trabajo de entrenamiento

Dimensión Descripción
Host

Para trabajos de entrenamiento, Host tiene el formato [training-job-name]/algo-[instance-number-in-cluster]. Utilice esta dimensión para filtrar métricas de instancias para la instancia y el trabajo de entrenamiento especificados. Este formato de dimensión está solo presente en el espacio de nombres /aws/sagemaker/TrainingJobs.

Para trabajos de transformación por lotes, Host tiene el formato [transform-job-name]/[instance-id]. Utilice esta dimensión para filtrar métricas de instancias para la instancia y el trabajo de transformación por lotes especificados. Este formato de dimensión está solo presente en el espacio de nombres /aws/sagemaker/TransformJobs.

Para los puntos de conexión, Host tiene el formato [endpoint-name]/[ production-variant-name ]/[instance-id]. Utilice esta dimensión para filtrar métricas de instancias para la instancia, la variante y el punto de conexión especificados. Este formato de dimensión está solo presente en el espacio de nombres /aws/sagemaker/Endpoints.

Para ayudarte a depurar tus tareas de formación, los puntos finales y las configuraciones del ciclo de vida de las instancias de cuadernos, la SageMaker IA también envía todo lo que un contenedor de algoritmos, un contenedor de modelos o una configuración del ciclo de vida de una instancia de cuaderno envíe a stdout stderr Amazon CloudWatch Logs. Puede utilizar esta información para depuración y para analizar el progreso.

Uso de registros para monitorizar una canalización de inferencia

En la siguiente tabla se enumeran los grupos de registros y los flujos de registros que la SageMaker IA envía a Amazon. CloudWatch

Un flujo de registro es una secuencia de eventos de registro que comparten la misma fuente. Cada fuente independiente de registros forma CloudWatch un flujo de registro independiente. Un grupo de registro es un grupo de flujos de registro que comparten la misma configuración de retención, monitorización y control de acceso.

Registros

Nombre del grupo de registro Nombre del flujo de registro
/aws/sagemaker/TrainingJobs

[training-job-name]/algo-[instance-number-in-cluster]-[epoch_timestamp]

/aws/sagemaker/Endpoints/[EndpointName]

[production-variant-name]/[instance-id]

[production-variant-name]/[instance-id]

[production-variant-name]/[instance-id]/[container-name provided in the SageMaker AI model] (For Inference Pipelines) Para registros de canalizaciones de inferencia, si no se proporcionan nombres de contenedor, CloudWatch utiliza**container-1, container-2**, etc., en el orden en el que los contenedores se proporcionan en el modelo.

/aws/sagemaker/NotebookInstances

[notebook-instance-name]/[LifecycleConfigHook]

/aws/sagemaker/TransformJobs

[transform-job-name]/[instance-id]-[epoch_timestamp]

[transform-job-name]/[instance-id]-[epoch_timestamp]/data-log

[transform-job-name]/[instance-id]-[epoch_timestamp]/[container-name provided in the SageMaker AI model] (For Inference Pipelines) Para registros de canalizaciones de inferencia, si no se proporcionan nombres de contenedor, CloudWatch utiliza**container-1, container-2**, etc., en el orden en el que los contenedores se proporcionan en el modelo.

nota

SageMaker La IA crea el grupo de /aws/sagemaker/NotebookInstances registros cuando se crea una instancia de bloc de notas con una configuración de ciclo de vida. Para obtener más información, consulte Personalización de una instancia de SageMaker bloc de notas mediante un script LCC.

Para obtener más información sobre el registro de SageMaker IA, consulteRegistra los grupos y las transmisiones que Amazon SageMaker AI envía a Amazon CloudWatch Logs.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.