Configure las métricas con el AWS CloudWatch agente (recomendado)Configure las métricas con el script preinstalado gpumon.py

Supervise las GPU con CloudWatch

Cuando utilice la DLAMI con una GPU, es probable que sienta la necesidad de realizar un seguimiento de su uso durante el entrenamiento o la inferencia. Esto puede resultar útil para optimizar la canalización de datos y ajustar la red de aprendizaje profundo.

Hay dos formas de configurar las métricas de la GPU con CloudWatch:

Configure las métricas con el AWS CloudWatch agente (recomendado)
Configure las métricas con el script preinstalado gpumon.py

Configure las métricas con el AWS CloudWatch agente (recomendado)

Integre su DLAMI con el agente CloudWatch unificado para configurar las métricas de la GPU y supervisar la utilización de los coprocesos de la GPU en las instancias aceleradas de Amazon EC2.

Hay cuatro formas de configurar las métricas de la GPU con su DLAMI:

Configuración de métricas de GPU mínimas
Configuración de métricas de GPU parciales
Configure todas las métricas de GPU disponibles
Configuración de métricas de GPU personalizadas

Para obtener más información sobre actualizaciones y parches de seguridad, consulte Parches de seguridad para el agente AWS CloudWatch .

Requisitos previos

Para empezar, debe configurar los permisos de IAM de la instancia Amazon EC2 que permitan a la instancia enviar métricas a ella. CloudWatch Para ver los pasos detallados, consulte Crear roles y usuarios de IAM para usarlos con el agente. CloudWatch

Configuración de métricas de GPU mínimas

Configure las métricas mínimas de GPU mediante el servicio systemd de dlami-cloudwatch-agent@minimal. En este servicio se configuran las siguientes métricas:

utilization_gpu
utilization_memory

Puede encontrar el servicio systemd de métricas mínimas de GPU preconfiguradas en la siguiente ubicación:


/opt/aws/amazon-cloudwatch-agent/etc/dlami-amazon-cloudwatch-agent-minimal.json

Active e inicie el servicio systemd con los siguientes comandos:


sudo systemctl enable dlami-cloudwatch-agent@minimal
sudo systemctl start dlami-cloudwatch-agent@minimal

Configuración de métricas de GPU parciales

Configure las métricas parciales de GPU mediante el servicio systemd de dlami-cloudwatch-agent@partial. En este servicio se configuran las siguientes métricas:

utilization_gpu
utilization_memory
memory_total
memory_used
memory_free

Puede encontrar el servicio systemd de métricas parciales de GPU preconfiguradas en la siguiente ubicación:


/opt/aws/amazon-cloudwatch-agent/etc/dlami-amazon-cloudwatch-agent-partial.json

Active e inicie el servicio systemd con los siguientes comandos:


sudo systemctl enable dlami-cloudwatch-agent@partial
sudo systemctl start dlami-cloudwatch-agent@partial

Configure todas las métricas de GPU disponibles

Configure todas las métricas disponibles de GPU mediante el servicio systemd de dlami-cloudwatch-agent@all. En este servicio se configuran las siguientes métricas:

utilization_gpu
utilization_memory
memory_total
memory_used
memory_free
temperature_gpu
power_draw
fan_speed
pcie_link_gen_current
pcie_link_width_current
encoder_stats_session_count
encoder_stats_average_fps
encoder_stats_average_latency
clocks_current_graphics
clocks_current_sm
clocks_current_memory
clocks_current_video

Puede encontrar el servicio systemd de todas las métricas disponibles de GPU preconfiguradas en la siguiente ubicación:


/opt/aws/amazon-cloudwatch-agent/etc/dlami-amazon-cloudwatch-agent-all.json

Active e inicie el servicio systemd con los siguientes comandos:


sudo systemctl enable dlami-cloudwatch-agent@all
sudo systemctl start dlami-cloudwatch-agent@all

Configuración de métricas de GPU personalizadas

Si las métricas preconfiguradas no cumplen sus requisitos, puede crear un archivo de configuración de CloudWatch agente personalizado.

Para crear un archivo de configuración personalizado

Para crear un archivo de configuración personalizado, consulte los pasos detallados en Crear o editar manualmente el archivo de configuración del CloudWatch agente.

Para este ejemplo, suponga que la definición del esquema se encuentra en /opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json.

Configure las métricas con su archivo personalizado

Ejecute el siguiente comando para configurar el CloudWatch agente según su archivo personalizado:


sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl \
-a fetch-config -m ec2 -s -c \
file:/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json

Parches de seguridad para el agente AWS CloudWatch

Los DLAMI recién lanzados están configurados con los últimos parches de seguridad disponibles para los AWS CloudWatch agentes. Consulte las siguientes secciones para actualizar su DLAMI actual con los últimos parches de seguridad en función del sistema operativo que elija.

Amazon Linux 2

Úselo yum para obtener los parches de seguridad de AWS CloudWatch agentes más recientes para una DLAMI de Amazon Linux 2.


 sudo yum update

Ubuntu

Para obtener los últimos parches AWS CloudWatch de seguridad para una DLAMI con Ubuntu, es necesario volver a instalar AWS CloudWatch el agente mediante un enlace de descarga de Amazon S3.


wget https://s3.region.amazonaws.com/amazoncloudwatch-agent-region/ubuntu/arm64/latest/amazon-cloudwatch-agent.deb

Para obtener más información sobre la instalación del AWS CloudWatch agente mediante los enlaces de descarga de Amazon S3, consulte Instalación y ejecución del CloudWatch agente en sus servidores.

Configure las métricas con el script preinstalado `gpumon.py`

Una utilidad denominada gpumon.py viene preinstalada en la DLAMI. Se integra CloudWatch y admite la supervisión del uso por GPU: memoria de la GPU, temperatura de la GPU y potencia de la GPU. El script envía periódicamente los datos monitorizados a CloudWatch. Puede configurar el nivel de granularidad de los datos a los que se envían CloudWatch cambiando algunos ajustes del script. Sin embargo, antes de iniciar el script, necesitará configurarlo CloudWatch para recibir las métricas.

Cómo configurar y ejecutar la supervisión de la GPU con CloudWatch

Cree un usuario de IAM o modifique uno existente para tener una política en la que publicar la métrica. CloudWatch Si crea un usuario nuevo, anote las credenciales, ya que las necesitará en el siguiente paso.

La política de IAM que hay que buscar es «cloudwatch:». PutMetricData La política que se añade es la siguiente:
```
{
   "Version": "2012-10-17",
   "Statement": [
        {
            "Action": [
                "cloudwatch:PutMetricData"
             ],
             "Effect": "Allow",
             "Resource": "*"
        }
   ]
}
```
sugerencia
Para obtener más información sobre cómo crear un usuario de IAM y añadir políticas CloudWatch, consulte la documentación. CloudWatch
En la DLAMI, ejecute el comando AWS configure y especifique las credenciales de usuario de IAM.
```
$ aws configure
```
Es posible que tenga que realizar algunas modificaciones en la utilidad gpumon antes de ejecutarla. Puede encontrar la utilidad gpumon y el archivo README en la ubicación definida en el siguiente bloque de código. Para obtener más información sobre el script gpumon.py, consulte la ubicación del script en Amazon S3.
```
Folder: ~/tools/GPUCloudWatchMonitor
Files: 	~/tools/GPUCloudWatchMonitor/gpumon.py
      	~/tools/GPUCloudWatchMonitor/README
```
Opciones:
- Cambie la región en gpumon.py si la instancia NO está en us-east-1.
- Cambie otros parámetros, como el período del informe CloudWatch namespace o el período sobre el que se informa, constore_reso.
Actualmente, el script solo es compatible con Python 3. Active el entorno de Python 3 de su marco de trabajo preferido o active el entorno general de Python 3 de la DLAMI.
```
$ source activate python3
```
Ejecute la utilidad gpumon en segundo plano.
```
(python3)$ python gpumon.py &
```
Abra https://console.aws.amazon.com/cloudwatch/ en su navegador y seleccione la métrica. Tendrá un espacio de nombres ''. DeepLearningTrain

sugerencia
Puede cambiar el espacio de nombres modificando gpumon.py. También puede modificar el intervalo de notificación ajustando store_reso.

El siguiente es un ejemplo de CloudWatch gráfico que informa sobre una ejecución de gpumon.py supervisando un trabajo de entrenamiento en una instancia p2.8xlarge.

Es posible que le interesen estos otros temas sobre la monitorización y optimización de GPU:

Monitorización
- Supervise las GPU con CloudWatch
Optimización
- Procesamiento previo
- Formación

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Supervisión

Optimización

Supervise las GPU con CloudWatch

Configure las métricas con el AWS CloudWatch agente (recomendado)

Requisitos previos

Configuración de métricas de GPU mínimas

Configuración de métricas de GPU parciales

Configure todas las métricas de GPU disponibles

Configuración de métricas de GPU personalizadas

Para crear un archivo de configuración personalizado

Configure las métricas con su archivo personalizado

Parches de seguridad para el agente AWS CloudWatch

Amazon Linux 2

Ubuntu

Configure las métricas con el script preinstalado gpumon.py

Cómo configurar y ejecutar la supervisión de la GPU con CloudWatch

sugerencia

sugerencia

Configure las métricas con el script preinstalado `gpumon.py`