Métricas de Información de contenedores de Kubernetes y de Amazon EKS
En las siguientes tablas, se muestran las métricas y las dimensiones que recopila Información de contenedores para Amazon EKS y Kubernetes. Estas métricas se encuentran en el espacio de nombres ContainerInsights
. Para obtener más información, consulte Métricas.
Si no ve ninguna métrica de Información de contenedores en la consola, asegúrese de haber completado la configuración de Información de contenedores. Las métricas no aparecen antes de haber configurado por completo Información de contenedores. Para obtener más información, consulte Configuración de Información de contenedores.
Si utiliza la versión 1.5.0 o posterior del complemento de Amazon EKS o la versión 1.300035.0 del agente CloudWatch, la mayoría de las métricas que se muestran en la siguiente tabla se recopilan para los nodos de Linux y Windows. Consulte la columna Nombre de métrica de la tabla para ver qué métricas no se recopilan para Windows.
Con la versión original de Información de contenedores, las métricas recopiladas se cobran como métricas personalizadas. Con Información de contenedores, con una observabilidad mejorada para Amazon EKS, las métricas de Información de contenedores se cobran por observación en lugar de cobrarse por métrica almacenada o registro ingerido. Para obtener más información sobre los precios de CloudWatch, consulte Precios de Amazon CloudWatch
nota
En Windows, las métricas de red como pod_network_rx_bytes
y pod_network_tx_bytes
no se recopilan para los contenedores de procesos del host.
Nombre de métrica | Dimensiones con cualquier versión de Información de contenedores | Dimensiones adicionales con Información de contenedores con observabilidad mejorada para Amazon EKS | Descripción |
---|---|---|---|
|
|
El número de nodos de trabajo con errores en el clúster. Se considera que un nodo ha fallado si está sufriendo de cualquiera de las condiciones de nodo. Para obtener más información, consulte Conditions |
|
|
|
El número total de nodos de trabajo en el clúster. |
|
|
|
El número de pods que se ejecutan por espacio de nombres en el recurso que se especifica mediante las dimensiones que está utilizando. |
|
|
|
|
El número máximo de unidades de CPU que se pueden asignar a un único nodo en este clúster. |
|
|
El porcentaje de unidades de CPU que están reservadas para los componentes de nodos, como kubelet, kube-proxy y Docker. Fórmula: nota
|
|
|
|
|
El número de unidades de CPU que se utilizan en los nodos del clúster. |
|
|
El porcentaje total de unidades de CPU que se utilizan en los nodos del clúster. Fórmula: |
|
|
|
El porcentaje total de capacidad de sistema de archivos que se utiliza en los nodos del clúster. Fórmula: nota
|
|
|
|
|
La cantidad máxima de memoria, en bytes, que se puede asignar a un único nodo en este clúster. |
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS. No está disponible en Windows. |
|
La cantidad total de inodos (utilizados y no utilizados) en un nodo. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS. No está disponible en Windows. |
|
La cantidad total de inodos no utilizados en un nodo. |
|
|
|
El porcentaje de memoria que se utiliza actualmente en los nodos del clúster. Fórmula: nota
|
|
|
|
El porcentaje de memoria que utiliza actualmente el nodo o los nodos. Es el porcentaje de uso de memoria de nodo sobre la limitación de memoria de nodo. Fórmula: |
|
|
|
|
La cantidad de memoria, en bytes, que se utiliza en el conjunto de trabajo de los nodos del clúster. |
|
|
El número total de bytes por segundo transmitidos y recibidos a través de la red por nodo en un clúster. Fórmula: nota
|
|
|
|
El número de contenedores en ejecución por nodo en un clúster. |
|
|
|
El número de pods en ejecución por nodo en un clúster. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de pods que se pueden asignar a un nodo en función de sus recursos asignables, que se define como el resto de la capacidad de un nodo después de tener en cuenta las reservas de daemons del sistema y los umbrales de expulsión forzoso. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Cantidad de pods que se pueden asignar a un nodo en función de su capacidad. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica si la condición de estado |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica si la condición de estado |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica si la condición de estado |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica si la condición de estado |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica si alguna de las condiciones de estado del nodo es Desconocida. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de paquetes que una interfaz de red del nodo recibió y luego descartó. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de paquetes que debían transmitirse pero que una interfaz de red del nodo descartó. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS. No está disponible en Windows. |
|
La cantidad total de bytes transferidos por todas las operaciones de E/S del nodo. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS. No está disponible en Windows. |
|
La cantidad total de operaciones de E/S del nodo. |
|
|
|
|
La capacidad de la CPU reservada por pod en un clúster. Fórmula: nota
|
|
Espacio de nombres, Servicios, Espacio de nombres,
|
|
El porcentaje de unidades de CPU que utilizan los pods. Fórmula: nota
|
|
Espacio de nombres, Servicios, Espacio de nombres,
|
|
El porcentaje de unidades de CPU utilizadas por pods en relación con el límite de pods. Fórmula: nota
|
|
|
|
El porcentaje de memoria reservada para los pods. Fórmula: nota
|
|
Espacio de nombres, Servicios, Espacio de nombres,
|
|
El porcentaje de memoria que utiliza actualmente el pod o los pods. Fórmula: nota
|
|
Espacio de nombres, Servicios, Espacio de nombres,
|
|
El porcentaje de memoria utilizada por los pods en relación con el límite de pods. Si algún contenedor del pod no tiene definido un límite de memoria, esta métrica no aparecerá. Fórmula: nota
|
|
Espacio de nombres, Servicios, Espacio de nombres,
|
|
El número de bytes por segundo que se están recibiendo a través de la red por el pod. Fórmula: nota
|
|
Espacio de nombres, Servicios, Espacio de nombres,
|
|
El número de bytes por segundo que se están transmitiendo a través de la red por el pod. Fórmula: nota
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Las solicitudes de la CPU para el pod. Fórmula: nota
|
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Las solicitudes de memoria para el pod. Fórmula: nota
|
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
El límite de la CPU definido para los contenedores del pod. Si algún contenedor del pod no tiene definido un límite de la CPU, esta métrica no aparecerá. Fórmula: nota
|
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
El límite de memoria definido para los contenedores del pod. Si algún contenedor del pod no tiene definido un límite de memoria, esta métrica no aparecerá. Fórmula: nota
|
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica que todos los contenedores del pod terminaron y que al menos un contenedor terminó con un estado distinto de cero o lo canceló el sistema. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica que todos los contenedores del pod están listos y alcanzaron el estado de |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica que todos los contenedores del pod están en ejecución. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica que el pod se programó para un nodo. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica que no se puede obtener el estado del pod. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica que el clúster aceptó el pod, pero que uno o más de los contenedores aún no están listos. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica que todos los contenedores del pod terminaron correctamente y no se reiniciarán. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica la cantidad de contenedores definido en la especificación del pod. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica la cantidad de contenedores del pod que se encuentran actualmente en el estado |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica la cantidad de contenedores del pod que se encuentran en el estado |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica la cantidad de contenedores del pod que se encuentran en el estado |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica la cantidad de contenedores del pod que se encuentran en el estado |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica la cantidad de contenedores del pod que están pendientes debido a un error |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica la cantidad de contenedores del pod que están pendientes con la razón |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica la cantidad de contenedores del pod que están pendientes con la razón |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica el número de contenedores del pod que están pendientes gracias a |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica la cantidad de contenedores del pod que están en el estado |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
Indica la cantidad de contenedores del pod que están pendientes con la razón |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de paquetes que esta interfaz de red recibió y luego descartó para el pod. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de paquetes que debían transmitirse pero que se descartaron para el pod. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
El porcentaje de unidades de CPU que utiliza el contenedor. Fórmula: nota
|
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
El porcentaje de unidades de CPU que utiliza el contenedor en relación con el límite de pods. Si algún contenedor no tiene definido un límite de la CPU, esta métrica no aparecerá. Fórmula: nota
|
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
El porcentaje de unidades de memoria que utiliza el contenedor. Fórmula: nota
|
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
El porcentaje de unidades de memoria que utiliza el contenedor en relación con el límite del contenedor. Si algún contenedor no tiene definido un límite de memoria, esta métrica no aparecerá. Fórmula: nota
|
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS. No está disponible en Windows. |
|
La cantidad de errores de asignación de memoria que experimentó el contenedor. |
|
|
PodName, |
El número total de reinicios del contenedor en un pod. |
|
|
Servicio,
|
El número de pods que ejecutan el servicio o servicios en el clúster. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de pods deseada para una carga de trabajo, tal como se define en la especificación de la carga de trabajo. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de pods de una carga de trabajo que alcanzó el estado listo. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de pods disponibles para una carga de trabajo. Un pod está disponible cuando está listo para cumplir con los |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de pods de una carga de trabajo que no están disponibles. Un pod está disponible cuando está listo para cumplir con los |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de objetos almacenados en etcd en el momento de la última comprobación. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad total de solicitudes de la API al servidor de la API de Kubernetes. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La latencia de respuesta a las solicitudes de la API al servidor de la API de Kubernetes. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La latencia del controlador de admisión en segundos. Un controlador de admisión es un código que intercepta las solicitudes al servidor de la API de Kubernetes. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La latencia de respuesta que experimentan los clientes que llaman al servidor de la API de Kubernetes. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad total de solicitudes de la API al servidor de la API de Kubernetes que hacen los clientes. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La latencia de respuesta de las llamadas de la API a Etcd. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
El tamaño del archivo de base de datos de almacenamiento asignado físicamente en bytes. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de solicitudes activas de larga duración al servidor de la API de Kubernetes. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de solicitudes que procesa el servidor de la API de Kubernetes. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La latencia del webhook de admisión en segundos. Los webhooks de admisión son devoluciones de llamadas HTTP que reciben las solicitudes de admisión y hacen algo con ellas. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La latencia del subpaso de admisión en segundos. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de solicitudes a API obsoletas en el servidor de la API de Kubernetes. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de solicitudes al servidor de la API de Kubernetes a las que se respondió con un código de respuesta HTTP 5XX. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La latencia de respuesta de los objetos listados de Etcd. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de solicitudes en cola que colocó el servidor de la API de Kubernetes. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes. |
|
Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS |
|
La cantidad de solicitudes rechazadas por el Subsistema de prioridad y equidad de la API. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes. |
Métricas de GPU de NVIDIA
A partir de la versión 1.300034.0
del agente de CloudWatch, Información de contenedores con observabilidad mejorada para Amazon EKS recopila las métricas de GPU de NVIDIA de las cargas de trabajo de EKS de forma predeterminada. El agente de CloudWatch debe instalarse con la versión v1.3.0-eksbuild.1
o posterior del complemento de EKS de observabilidad de Amazon CloudWatch. Para obtener más información, consulte Instalación del agente de CloudWatch con el complemento de observabilidad de EKS de Amazon CloudWatch o el gráfico de Helm. Estas métricas de GPU de NVIDIA que se recopilan se muestran en la tabla de esta sección.
Para que Información de contenedores recopile métricas de GPU de NVIDIA, debe cumplir los siguientes requisitos previos:
Debe utilizar Información de contenedores con observabilidad mejorada para Amazon EKS, con la versión
v1.3.0-eksbuild.1
o posterior del complemento de EKS de observabilidad de Amazon CloudWatch.El complemento de dispositivo de NVIDIA para Kubernetes
debe estar instalado en el clúster. El kit de herramientas de contenedor de NVIDIA
debe estar instalado en los nodos del clúster. Por ejemplo, las AMI aceleradas optimizadas para Amazon EKS se crearon con los componentes necesarios.
Para dejar de recopilar métricas de GPU de NVIDIA, establezca la opción accelerated_compute_metrics
del inicio del archivo de configuración del agente de CloudWatch como false
. Para obtener más información y un ejemplo de configuración de desactivación, consulte Configuraciones adicionales (Opcional).
Nombre de métrica | Dimensiones | Descripción |
---|---|---|
|
|
El tamaño total del búfer del marco, en bytes, en las GPU asignadas al contenedor. |
|
|
Los bytes del búfer del marco que se usan en las GPU asignadas al contenedor. |
|
|
El porcentaje del búfer del marco que se usa en las GPU asignadas al contenedor. |
|
|
El consumo de energía en vatios de las GPU asignadas al contenedor. |
|
|
La temperatura en grados centígrados de las GPU asignadas al contenedor. |
|
|
El porcentaje de uso de las GPU asignadas al contenedor. |
|
|
El tamaño total del búfer del marco, en bytes, en las GPU asignadas al nodo. |
|
|
Los bytes del búfer del marco que se usan en las GPU asignadas al nodo. |
|
|
El porcentaje del búfer del marco que se usa en las GPU asignadas al nodo. |
|
|
El consumo de energía en vatios de las GPU asignadas al nodo. |
|
|
La temperatura en grados centígrados de las GPU asignadas al nodo. |
|
|
El porcentaje de uso de las GPU asignadas al nodo. |
|
|
El tamaño total del búfer del marco, en bytes, en las GPU asignadas al pod. |
|
|
Los bytes del búfer del marco que se usan en las GPU asignadas al pod. |
|
|
El porcentaje del búfer del marco que se usa en las GPU asignadas al pod. |
|
|
El consumo de energía en vatios de las GPU asignadas al pod. |
|
|
La temperatura en grados centígrados de las GPU asignadas al pod. |
|
|
El porcentaje de uso de las GPU asignadas al pod. |
Métricas de AWS Neuron para AWS Trainium y AWS Inferentia
A partir de la versión 1.300036.0
del agente de CloudWatch, Información de contenedores con observabilidad mejorada para Amazon EKS recopila métricas de computación aceleradas de los aceleradores de AWS Trainium y AWS Inferentia de forma predeterminada. El agente de CloudWatch debe instalarse con la versión v1.5.0-eksbuild.1
o posterior del complemento de EKS de observabilidad de Amazon CloudWatch. Para obtener más información acerca del complemento, consulte Instalación del agente de CloudWatch con el complemento de observabilidad de EKS de Amazon CloudWatch o el gráfico de Helm. Para obtener más información acerca de AWS Trainium, consulte AWS Trainium
Para que Información de contenedores recopile métricas de AWS Neuron, debe cumplir los siguientes requisitos previos:
Debe utilizar Información de contenedores con observabilidad mejorada para Amazon EKS, con la versión
v1.5.0-eksbuild.1
o posterior del complemento de EKS de observabilidad de Amazon CloudWatch.El controlador Neuron
debe estar instalado en los nodos del clúster. El complemento del dispositivo Neuron
debe estar instalado en el clúster. Por ejemplo, las AMI aceleradas optimizadas para Amazon EKS se crearon con los componentes necesarios.
Las métricas que se recopilan se muestran en la tabla de esta sección. Las métricas se recopilan para AWS Trainium, AWS Inferentia y AWS Inferentia2.
El agente CloudWatch recopila estas métricas de Neuron Monitor
Nombre de métrica | Dimensiones | Descripción |
---|---|---|
|
|
Utilización de NeuronCore, durante el período de captura del NeuronCore asignado al contenedor. Unidad: porcentaje |
|
|
La cantidad de memoria del dispositivo que NeuronCore utiliza para las constantes durante el entrenamiento y que se asigna al contenedor (o a los pesos durante la inferencia). Unidades: bytes |
|
|
La cantidad de memoria del dispositivo que NeuronCore utiliza para el código ejecutable de los modelos y que se asigna al contenedor. Unidades: bytes |
|
|
La cantidad de memoria del dispositivo que NeuronCore utiliza para el scratchpad compartido de los modelos y que se asigna al contenedor. Esta región de memoria está reservada para los modelos. Unidades: bytes |
|
|
La cantidad de memoria del dispositivo que NeuronCore utiliza para el tiempo de ejecución de Neuron y que se asigna al contenedor. Unidades: bytes |
|
|
La cantidad de memoria del dispositivo que NeuronCore utiliza para los tensores y que se asigna al contenedor. Unidades: bytes |
|
|
La cantidad total de memoria que NeuronCore utiliza y que se asigna al contenedor. Unidades: bytes |
|
|
El número de eventos de ECC corregidos y no corregidos para la SRAM integrada en el chip y la memoria del dispositivo Neuron del nodo. Unidad: recuento |
|
|
La utilización de NeuronCore durante el período de captura de NeuronCore asignada al pod. Unidad: porcentaje |
|
|
La cantidad de memoria del dispositivo que NeuronCore utiliza para las constantes durante el entrenamiento y que se asigna al pod (o a los pesos durante la inferencia). Unidades: bytes |
|
|
La cantidad de memoria del dispositivo que NeuronCore utiliza para el código ejecutable de los modelos y que se asigna al pod. Unidades: bytes |
|
|
La cantidad de memoria del dispositivo que NeuronCore utiliza para el scratchpad compartido de los modelos y que se asigna al pod. Esta región de memoria está reservada para los modelos. Unidades: bytes |
|
|
La cantidad de memoria del dispositivo que NeuronCore utiliza para el tiempo de ejecución de Neuron y que se asigna al pod. Unidades: bytes |
|
|
La cantidad de memoria del dispositivo que NeuronCore utiliza para los tensores y que se asigna al pod. Unidades: bytes |
|
|
La cantidad total de memoria que NeuronCore utiliza y que se asigna al pod. Unidades: bytes |
|
|
La cantidad de eventos de ECC corregidos y no corregidos para la SRAM en el chip y la memoria del dispositivo Neuron asignada a un pod. Unidades: bytes |
|
|
La utilización de NeuronCore durante el período de captura de NeuronCore asignada al nodo. Unidad: porcentaje |
|
|
La cantidad de memoria del dispositivo que NeuronCore utiliza para las constantes durante el entrenamiento y que se asigna al nodo (o a los pesos durante la inferencia). Unidades: bytes |
|
|
La cantidad de memoria del dispositivo que NeuronCore utiliza para el código ejecutable de los modelos y que se asigna al nodo. Unidades: bytes |
|
|
La cantidad de memoria del dispositivo que NeuronCore utiliza para el scratchpad compartido de los modelos y que se asigna al nodo. Esta es una región de memoria reservada para los modelos. Unidades: bytes |
|
|
La cantidad de memoria del dispositivo que NeuronCore utiliza para el tiempo de ejecución de Neuron y que se asigna al nodo. Unidades: bytes |
|
|
La cantidad de memoria del dispositivo que NeuronCore utiliza para los tensores y que se asigna al nodo. Unidades: bytes |
|
|
La cantidad total de memoria que NeuronCore utiliza y que se asigna al nodo. Unidades: bytes |
|
|
El número total de errores de ejecución del nodo. El agente de CloudWatch lo calcula agregando los errores de los siguientes tipos: Unidad: recuento |
|
|
El uso total de memoria del dispositivo Neuron en bytes en el nodo. Unidades: bytes |
|
|
En segundos, la latencia para una ejecución en el nodo medida por el tiempo de ejecución de Neuron. Unidad: segundos |
|
|
El número de eventos de ECC corregidos y no corregidos para la SRAM integrada en el chip y la memoria del dispositivo Neuron del nodo. Unidad: recuento |
Métricas de AWS Elastic Fabric Adapter (EFA)
A partir de la versión 1.300037.0
del agente de CloudWatch, Información de contenedores con observabilidad mejorada para Amazon EKS recopila métricas de AWS Elastic Fabric Adapter (EFA) de clústeres de Amazon EKS en instancias de Linux. El agente de CloudWatch debe instalarse con la versión v1.5.2-eksbuild.1
o posterior del complemento de EKS de observabilidad de Amazon CloudWatch. Para obtener más información acerca del complemento, consulte Instalación del agente de CloudWatch con el complemento de observabilidad de EKS de Amazon CloudWatch o el gráfico de Helm. Para obtener más información sobre AWS Elastic Fabric Adapter (EFA), consulte Elastic Fabric Adapter
Para que Información de contenedores recopile métricas de AWS Elastic Fabric Adapter, debe cumplir los siguientes requisitos previos:
Debe utilizar Información de contenedores con observabilidad mejorada para Amazon EKS, con la versión
v1.5.2-eksbuild.1
o posterior del complemento de EKS de observabilidad de Amazon CloudWatch.El complemento del dispositivo EFA debe estar instalado en el clúster. Para obtener más información, consulte aws-efa-k8s-device-plugin
en GitHub.
Las métricas que se recopilan se enumeran en la siguiente tabla.
Nombre de métrica | Dimensiones | Descripción |
---|---|---|
|
|
El número de bytes por segundo que han recibido los dispositivos EFA asignados al contenedor. Unidad: bytes/segundo |
|
|
El número de bytes por segundo que han transmitido los dispositivos EFA asignados al contenedor. Unidad: bytes/segundo |
|
|
El número de paquetes que han recibido y luego descartado los dispositivos EFA asignados al contenedor. Unidad: recuento/segundo |
|
|
El número de bytes por segundo que han recibido los dispositivos EFA asignados al contenedor mediante operaciones de lectura de acceso remoto directo a la memoria. Unidad: bytes/segundo |
|
|
El número de bytes por segundo que han transmitido los dispositivos EFA asignados al contenedor mediante operaciones de lectura de acceso remoto directo a la memoria. Unidad: bytes/segundo |
|
|
El número de bytes por segundo que han recibido los dispositivos EFA asignados al contenedor durante operaciones de escritura de acceso remoto directo a la memoria. Unidad: bytes/segundo |
|
|
El número de bytes por segundo que han recibido los dispositivos EFA asignados al pod. Unidad: bytes/segundo |
|
|
El número de bytes por segundo que han transmitido los dispositivos EFA asignados al pod. Unidad: bytes/segundo |
|
|
El número de paquetes que han recibido y luego descartado los dispositivos EFA asignados al pod. Unidad: recuento/segundo |
|
|
El número de bytes por segundo que han recibido los dispositivos EFA asignados al pod mediante operaciones de lectura de acceso remoto directo a la memoria. Unidad: bytes/segundo |
|
|
El número de bytes por segundo que han transmitido los dispositivos EFA asignados al pod mediante operaciones de lectura de acceso remoto directo a la memoria. Unidad: bytes/segundo |
|
|
El número de bytes por segundo que han recibido los dispositivos EFA asignados al pod durante operaciones de escritura de acceso remoto directo a la memoria. Unidad: bytes/segundo |
|
|
El número de bytes por segundo que han recibido los dispositivos EFA asignados al nodo. Unidad: bytes/segundo |
|
|
El número de bytes por segundo que han transmitido los dispositivos EFA asignados al nodo. Unidad: bytes/segundo |
|
|
El número de paquetes que han recibido y luego descartado los dispositivos EFA asignados al nodo. Unidad: recuento/segundo |
|
|
El número de bytes por segundo que han recibido los dispositivos EFA asignados al nodo mediante operaciones de lectura de acceso remoto directo a la memoria. Unidad: bytes/segundo |
|
|
El número de bytes por segundo que han transmitido los dispositivos EFA asignados al pod mediante operaciones de lectura de acceso remoto directo a la memoria. Unidad: bytes/segundo |
|
|
El número de bytes por segundo que han recibido los dispositivos EFA asignados al nodo durante operaciones de escritura de acceso remoto directo a la memoria. Unidad: bytes/segundo |
Métricas de Amazon SageMaker AI HyperPod
A partir de la versión v2.0.1-eksbuild.1
del complemento de observabilidad de EKS de CloudWatch, Información de contenedores con observabilidad mejorada para Amazon EKS recopila automáticamente métricas de Amazon SageMaker AI HyperPod de clústeres de Amazon EKS. Para obtener más información acerca del complemento, consulte Instalación del agente de CloudWatch con el complemento de observabilidad de EKS de Amazon CloudWatch o el gráfico de Helm. Para obtener más información sobre Amazon SageMaker AI HyperPod, consulte Amazon SageMaker AI HyperPod.
Las métricas que se recopilan se enumeran en la siguiente tabla.
Nombre de métrica | Dimensiones | Descripción |
---|---|---|
|
|
Indica si Amazon SageMaker AI HyperPod ha etiquetado un nodo como Unidad: recuento |
|
|
Indica si Amazon SageMaker AI HyperPod ha etiquetado un nodo como Unidad: recuento |
|
|
Indica si HyperPod ha etiquetado un nodo como Si la recuperación automática de nodos está habilitada, Amazon SageMaker AI HyperPod reemplazará automáticamente el nodo. Unidad: recuento |
|
|
Indica si Amazon SageMaker AI HyperPod ha etiquetado un nodo como Si la recuperación automática de nodos está habilitada, Amazon SageMaker AI HyperPod reiniciará automáticamente el nodo. Unidad: recuento |