Registros y métricas de canalización de inferencias

La supervisión es importante para mantener la fiabilidad, la disponibilidad y el rendimiento de los recursos de SageMaker IA de Amazon. Para supervisar y solucionar problemas de rendimiento de la canalización de inferencias, utiliza los CloudWatch registros y los mensajes de error de Amazon. Para obtener información sobre las herramientas de monitoreo que proporciona la SageMaker IA, consulte. Supervisión de AWS los recursos en Amazon SageMaker AI

Uso de métricas para monitorizar modelos de varios contenedores

Para supervisar los modelos de varios contenedores en Inference Pipelines, utilice Amazon. CloudWatch CloudWatchrecopila datos sin procesar y los procesa para convertirlos en métricas legibles y prácticamente en tiempo real. SageMaker Los puntos finales y los trabajos de formación en IA escriben CloudWatch métricas y registros en el AWS/SageMaker espacio de nombres.

Las siguientes tablas muestran las métricas y dimensiones de los siguientes:

Invocaciones de punto de conexión
Trabajos de entrenamiento, trabajos de transformación por lotes e instancias de punto de conexión

Una dimensión es un par de nombre-valor que identifica una métrica de forma inequívoca. Puede asignar hasta 10 dimensiones a una métrica. Para obtener más información sobre la supervisión con CloudWatch, consulte. Métricas de Amazon SageMaker AI en Amazon CloudWatch

Métricas de invocación de puntos de conexión

El espacio de nombres AWS/SageMaker incluye las siguientes métricas de respuesta desde llamadas en InvokeEndpoint .

Las métricas se notifican a intervalos de 1 minuto.

Métrica	Descripción
`Invocation4XXErrors`	El número de solicitudes `InvokeEndpoint` para el que el modelo devolvió un código de respuesta HTTP `4xx`. Para cada `4xx` respuesta, la SageMaker IA envía un`1`. Unidades: ninguna Estadísticas válidas: `Average`, `Sum`
`Invocation5XXErrors`	El número de solicitudes `InvokeEndpoint` para el que el modelo devolvió un código de respuesta HTTP `5xx`. Para cada `5xx` respuesta, la SageMaker IA envía un`1`. Unidades: ninguna Estadísticas válidas: `Average`, `Sum`
`Invocations`	Las solicitudes de `number of InvokeEndpoint` enviadas a un punto de conexión del modelo. Para obtener el número total de solicitudes enviadas a un punto de conexión del modelo, utilice la estadística `Sum`. Unidades: ninguna Estadísticas válidas: `Sum`, `Sample Count`
`InvocationsPerInstance`	El número de invocaciones de puntos finales enviadas a un modelo, normalizado `InstanceCount` en cada una de ellas. `ProductionVariant` SageMaker La IA envía 1/ `numberOfInstances` como valor para cada solicitud, que `numberOfInstances` es el número de instancias activas ProductionVariant en el punto final en el momento de la solicitud. Unidades: ninguna Estadísticas válidas: `Sum`
`ModelLatency`	El tiempo que el modelo o modelos tardan en responder. Esto incluye el tiempo necesario para enviar la solicitud, para obtener la respuesta del contenedor de modelos y para completar la inferencia en el contenedor. `ModelLatency` es el tiempo total que tardan todos los contenedores en una canalización de inferencia. Unidades: microsegundos Estadísticas válidas: `Average`, `Sum`, `Min`, `Max`, Sample Count
`OverheadLatency`	El tiempo que se suma al tiempo necesario para responder a una solicitud de un cliente por parte de SageMaker AI en concepto de gastos generales. `OverheadLatency`se mide desde el momento en que SageMaker AI recibe la solicitud hasta que devuelve una respuesta al cliente, menos el`ModelLatency`. La latencia de sobrecargas puede variar en función de los tamaños de carga de solicitud y respuesta, la frecuencia de solicitud y la autenticación o la autorización de la solicitud, entre otros factores. Unidades: microsegundos Estadísticas válidas: `Average`, `Sum`, `Min`, `Max`, `Sample Count`
`ContainerLatency`	El tiempo que tardó un contenedor de Inference Pipelines en responder, visto desde SageMaker AI. `ContainerLatency`incluye el tiempo que se tardó en enviar la solicitud, obtener la respuesta del contenedor del modelo y completar la inferencia en el contenedor. Unidades: microsegundos Estadísticas válidas: `Average`, `Sum`, `Min`, `Max`, `Sample Count`

Dimensiones de las métricas de invocación de puntos de conexión

Dimensión	Descripción
`EndpointName, VariantName, ContainerName`	Filtra las métricas de invocación de punto de conexión para `ProductionVariant` en el punto de conexión especificado y para la variante especificada.

En el caso de un punto final de proceso de inferencia, CloudWatch enumera las métricas de latencia por contenedor de su cuenta como métricas de contenedores de terminales y métricas de variantes de puntos finales en el espacio de nombres de SageMaker AI, de la siguiente manera. La métrica ContainerLatency solo aparece para canalizaciones de inferencias.

El CloudWatch panel de control de una canalización de inferencias.

Para cada punto de conexión y cada contenedor, las métricas de latencia muestran los nombres del contenedor, punto de conexión, variante y métrica.

Las métricas de latencia de un punto de conexión.

Métricas de instancias de punto de conexión, trabajo de transformación por lotes y trabajo de entrenamiento

Los espacios de nombres /aws/sagemaker/TrainingJobs, /aws/sagemaker/TransformJobs y /aws/sagemaker/Endpoints incluyen las siguientes métricas para los trabajos de entrenamiento y las instancias de punto de conexión.

Las métricas se notifican a intervalos de 1 minuto.

Métrica	Descripción
`CPUUtilization`	El porcentaje de unidades de CPU usadas por los contenedores que se ejecutan en una instancia. El valor oscila entre el 0% y el 100% y se multiplica por el número de CPUs. Por ejemplo, si hay cuatro CPUs, `CPUUtilization` puede oscilar entre el 0% y el 400%. Para los trabajos de entrenamiento, `CPUUtilization` es la utilización de la CPU del contenedor de algoritmos que se ejecutan en la instancia. Para los trabajos de transformación por lotes, `CPUUtilization` es la utilización de la CPU del contenedor de transformación que se ejecuta en la instancia. Para modelos de varios contenedores, `CPUUtilization` es la suma de la utilización de CPU por parte de todos los contenedores que se ejecutan en la instancia. Para variantes de punto de conexión, `CPUUtilization` es la suma de la utilización de CPU por parte de todos los contenedores que se ejecutan en la instancia. Unidad: porcentaje
`MemoryUtilization`	El porcentaje de memoria que utilizan los contenedores que se ejecutan en una instancia. Este valor oscila entre 0 % y 100 %. Para trabajos de entrenamiento, `MemoryUtilization` es la memoria utilizada por el contenedor de algoritmos que se ejecuta en la instancia. Para trabajos de transformación por lotes, `MemoryUtilization` es la memoria utilizada por el contenedor de transformación que se ejecuta en la instancia. Para modelos de varios contenedores, `MemoryUtilization` es la suma de memoria utilizada por todos los contenedores que se ejecutan en la instancia. Para variantes de punto de conexión, `MemoryUtilization` es la suma de memoria utilizada por todos los contenedores que se ejecutan en la instancia. Unidad: porcentaje
`GPUUtilization`	El porcentaje de unidades de GPU que utilizan los contenedores que se ejecutan en una instancia. `GPUUtilization`oscila entre el 0% y el 100% y se multiplica por el número de GPUs. Por ejemplo, si hay cuatro GPUs, `GPUUtilization` puede oscilar entre el 0% y el 400%. Para trabajos de entrenamiento, `GPUUtilization` es la GPU que utiliza el contenedor de algoritmo que se ejecuta en la instancia. Para trabajos de transformación por lotes, `GPUUtilization` es la GPU utilizada por el contenedor de transformación que se ejecuta en la instancia. Para modelos de varios contenedores, `GPUUtilization` es la suma de GPU utilizada por todos los contenedores que se ejecutan en la instancia. Para variantes de punto de conexión, `GPUUtilization` es la suma de GPU utilizada por todos los contenedores que se ejecutan en la instancia. Unidad: porcentaje
`GPUMemoryUtilization`	El porcentaje de memoria de la GPU que utilizan los contenedores que se ejecutan en una instancia. GPUMemoryEl uso oscila entre el 0% y el 100% y se multiplica por el número de GPUs. Por ejemplo, si hay cuatro GPUs, `GPUMemoryUtilization` puede oscilar entre el 0% y el 400%. Para trabajos de entrenamiento, `GPUMemoryUtilization` es la memoria de GPU utilizada por el contenedor de algoritmos que se ejecuta en la instancia. Para trabajos de transformación por lotes, `GPUMemoryUtilization` es la memoria de GPU utilizada por el contenedor de transformación que se ejecuta en la instancia. Para modelos de varios contenedores, `GPUMemoryUtilization` es la suma de GPU utilizados por todos los contenedores que se ejecutan en la instancia. Para variantes de punto de conexión, `GPUMemoryUtilization` es la suma de la memoria de GPU utilizada por todos los contenedores que se ejecutan en la instancia. Unidad: porcentaje
`DiskUtilization`	El porcentaje de espacio en disco que utilizan los contenedores que se ejecutan en una instancia. DiskUtilization oscila entre el 0% y el 100%. Esta métrica no es compatible con los trabajos de transformación por lotes. Para trabajos de entrenamiento, `DiskUtilization` es el espacio en disco utilizado por el contenedor de algoritmos que se ejecuta en la instancia. Para variantes de punto de conexión, `DiskUtilization` es la suma de espacio en disco utilizado por todos los contenedores proporcionados que se ejecutan en la instancia. Unidad: porcentaje

Dimensiones de métricas de instancias de punto de conexión, trabajo de transformación por lotes y trabajo de entrenamiento

Dimensión Descripción

Dimensión	Descripción
`Host`	Para trabajos de entrenamiento, `Host` tiene el formato `[training-job-name]/algo-[instance-number-in-cluster]`. Utilice esta dimensión para filtrar métricas de instancias para la instancia y el trabajo de entrenamiento especificados. Este formato de dimensión está solo presente en el espacio de nombres `/aws/sagemaker/TrainingJobs`. Para trabajos de transformación por lotes, `Host` tiene el formato `[transform-job-name]/[instance-id]`. Utilice esta dimensión para filtrar métricas de instancias para la instancia y el trabajo de transformación por lotes especificados. Este formato de dimensión está solo presente en el espacio de nombres `/aws/sagemaker/TransformJobs`. Para los puntos de conexión, `Host` tiene el formato `[endpoint-name]/[ production-variant-name ]/[instance-id]`. Utilice esta dimensión para filtrar métricas de instancias para la instancia, la variante y el punto de conexión especificados. Este formato de dimensión está solo presente en el espacio de nombres `/aws/sagemaker/Endpoints`.

Host

Para trabajos de entrenamiento, Host tiene el formato [training-job-name]/algo-[instance-number-in-cluster]. Utilice esta dimensión para filtrar métricas de instancias para la instancia y el trabajo de entrenamiento especificados. Este formato de dimensión está solo presente en el espacio de nombres /aws/sagemaker/TrainingJobs.

Para trabajos de transformación por lotes, Host tiene el formato [transform-job-name]/[instance-id]. Utilice esta dimensión para filtrar métricas de instancias para la instancia y el trabajo de transformación por lotes especificados. Este formato de dimensión está solo presente en el espacio de nombres /aws/sagemaker/TransformJobs.

Para los puntos de conexión, Host tiene el formato [endpoint-name]/[ production-variant-name ]/[instance-id]. Utilice esta dimensión para filtrar métricas de instancias para la instancia, la variante y el punto de conexión especificados. Este formato de dimensión está solo presente en el espacio de nombres /aws/sagemaker/Endpoints.

Para ayudarte a depurar tus tareas de formación, los puntos finales y las configuraciones del ciclo de vida de las instancias de cuadernos, la SageMaker IA también envía todo lo que un contenedor de algoritmos, un contenedor de modelos o una configuración del ciclo de vida de una instancia de cuaderno envíe a stdout stderr Amazon CloudWatch Logs. Puede utilizar esta información para depuración y para analizar el progreso.

Uso de registros para monitorizar una canalización de inferencia

En la siguiente tabla se enumeran los grupos de registros y los flujos de registros que la SageMaker IA envía a Amazon. CloudWatch

Un flujo de registro es una secuencia de eventos de registro que comparten la misma fuente. Cada fuente independiente de registros forma CloudWatch un flujo de registro independiente. Un grupo de registro es un grupo de flujos de registro que comparten la misma configuración de retención, monitorización y control de acceso.

Registros

Nombre del grupo de registro	Nombre del flujo de registro
`/aws/sagemaker/TrainingJobs`	`[training-job-name]/algo-[instance-number-in-cluster]-[epoch_timestamp]`
`/aws/sagemaker/Endpoints/[EndpointName]`	`[production-variant-name]/[instance-id]`
	`[production-variant-name]/[instance-id]`
	`[production-variant-name]/[instance-id]/[container-name provided in the SageMaker AI model] (For Inference Pipelines)`Para los registros de Inference Pipelines, si no proporciona los nombres de los contenedores, CloudWatch utilice contenedor-1, contenedor-2, etc., en el orden en que se proporcionan los contenedores en el modelo.
`/aws/sagemaker/NotebookInstances`	`[notebook-instance-name]/[LifecycleConfigHook]`
`/aws/sagemaker/TransformJobs`	`[transform-job-name]/[instance-id]-[epoch_timestamp]`
	`[transform-job-name]/[instance-id]-[epoch_timestamp]/data-log`
	`[transform-job-name]/[instance-id]-[epoch_timestamp]/[container-name provided in the SageMaker AI model] (For Inference Pipelines)`En el caso de los registros de Inference Pipelines, si no proporciona los nombres de los contenedores, CloudWatch utiliza contenedor-1, contenedor-2, etc., en el orden en que se proporcionan los contenedores en el modelo.

nota

SageMaker La IA crea el grupo de /aws/sagemaker/NotebookInstances registros al crear una instancia de bloc de notas con una configuración de ciclo de vida. Para obtener más información, consulte Personalización de una instancia de SageMaker bloc de notas mediante un script LCC.

Para obtener más información sobre el registro de SageMaker IA, consulteCloudWatch Registros para Amazon SageMaker AI.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Transformaciones por lotes

Solución de problemas