Monitora le GPU con CloudWatch - Deep Learning AMI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Monitora le GPU con CloudWatch

Quando si utilizza la DLAMI con una GPU, è possibile che si stiano cercando modi per tenere traccia del suo utilizzo durante il training o l'inferenza. Questo può essere utile per ottimizzare la data pipeline e regolare la rete di deep learning.

Esistono due modi per configurare le metriche della GPU con: CloudWatch

Configura le metriche con l' AWS CloudWatch agente (consigliato)

Integra il tuo DLAMI con l' CloudWatch agente unificato per configurare i parametri della GPU e monitorare l'utilizzo dei coprocessi GPU nelle istanze accelerate di Amazon EC2.

Esistono quattro modi per configurare le metriche della GPU con DLAMI:

Per informazioni sugli aggiornamenti e le patch di sicurezza, consulta Applicazione di patch di sicurezza per l'agente AWS CloudWatch

Prerequisiti

Per iniziare, devi configurare le autorizzazioni IAM dell'istanza Amazon EC2 che consentano all'istanza di inviare parametri a. CloudWatch Per i passaggi dettagliati, consulta Creare ruoli e utenti IAM da utilizzare con l'agente. CloudWatch

Configura metriche minime per la GPU

Configura metriche minime per la GPU utilizzando il servizio. dlami-cloudwatch-agent@minimal systemd Questo servizio configura le seguenti metriche:

  • utilization_gpu

  • utilization_memory

Puoi trovare il systemd servizio per le metriche minime preconfigurate della GPU nella seguente posizione:

/opt/aws/amazon-cloudwatch-agent/etc/dlami-amazon-cloudwatch-agent-minimal.json

Abilita e avvia il systemd servizio con i seguenti comandi:

sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal

Configura le metriche parziali della GPU

Configura le metriche parziali della GPU utilizzando il servizio. dlami-cloudwatch-agent@partial systemd Questo servizio configura le seguenti metriche:

  • utilization_gpu

  • utilization_memory

  • memory_total

  • memory_used

  • memory_free

Puoi trovare il systemd servizio per le metriche parziali preconfigurate della GPU nella seguente posizione:

/opt/aws/amazon-cloudwatch-agent/etc/dlami-amazon-cloudwatch-agent-partial.json

Abilita e avvia il systemd servizio con i seguenti comandi:

sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial

Configura tutte le metriche GPU disponibili

Configura tutte le metriche GPU disponibili utilizzando il servizio. dlami-cloudwatch-agent@all systemd Questo servizio configura le seguenti metriche:

  • utilization_gpu

  • utilization_memory

  • memory_total

  • memory_used

  • memory_free

  • temperature_gpu

  • power_draw

  • fan_speed

  • pcie_link_gen_current

  • pcie_link_width_current

  • encoder_stats_session_count

  • encoder_stats_average_fps

  • encoder_stats_average_latency

  • clocks_current_graphics

  • clocks_current_sm

  • clocks_current_memory

  • clocks_current_video

Puoi trovare il systemd servizio per tutte le metriche GPU preconfigurate disponibili nella seguente posizione:

/opt/aws/amazon-cloudwatch-agent/etc/dlami-amazon-cloudwatch-agent-all.json

Abilita e avvia il systemd servizio con i seguenti comandi:

sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all

Configura metriche GPU personalizzate

Se le metriche preconfigurate non soddisfano i tuoi requisiti, puoi creare un file di configurazione dell'agente personalizzato CloudWatch .

Crea un file di configurazione personalizzato

Per creare un file di configurazione personalizzato, consulta i passaggi dettagliati in Creare o modificare manualmente il file di configurazione dell' CloudWatch agente.

Per questo esempio, supponiamo che la definizione dello schema si trovi in/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json.

Configura le metriche con il tuo file personalizzato

Esegui il comando seguente per configurare l' CloudWatch agente in base al tuo file personalizzato:

sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl \ -a fetch-config -m ec2 -s -c \ file:/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json

Applicazione di patch di sicurezza per l'agente AWS CloudWatch

I DLAMI appena rilasciati sono configurati con le ultime patch di sicurezza disponibili per gli AWS CloudWatch agenti. Consultate le seguenti sezioni per aggiornare il vostro attuale DLAMI con le patch di sicurezza più recenti a seconda del sistema operativo scelto.

Amazon Linux 2

yumUsalo per ottenere le patch di sicurezza degli AWS CloudWatch agenti più recenti per un DLAMI Amazon Linux 2.

sudo yum update

Ubuntu

Per ottenere le patch AWS CloudWatch di sicurezza più recenti per un DLAMI con Ubuntu, è necessario reinstallare AWS CloudWatch l'agente utilizzando un link per il download di Amazon S3.

wget https://s3.region.amazonaws.com/amazoncloudwatch-agent-region/ubuntu/arm64/latest/amazon-cloudwatch-agent.deb

Per ulteriori informazioni sull'installazione dell' AWS CloudWatch agente utilizzando i link per il download di Amazon S3, consulta Installazione ed esecuzione dell' CloudWatch agente sui server.

Configura le metriche con lo script preinstallato gpumon.py

Un'utilità denominata gpumon.py è preinstallata sulla DLAMI. Si integra CloudWatch e supporta il monitoraggio dell'utilizzo per GPU: memoria GPU, temperatura della GPU e potenza della GPU. Lo script invia periodicamente i dati monitorati a. CloudWatch È possibile configurare il livello di granularità dei dati a cui vengono inviati CloudWatch modificando alcune impostazioni nello script. Prima di avviare lo script, tuttavia, è necessario configurarlo per CloudWatch ricevere le metriche.

Come configurare ed eseguire il monitoraggio della GPU con CloudWatch
  1. Crea un utente IAM o modificane uno esistente per disporre di una policy su cui pubblicare la metrica. CloudWatch Se crei un nuovo utente, prendi nota delle credenziali poiché saranno necessarie nella fase successiva.

    La policy IAM da cercare è «cloudwatch: PutMetric Data». La policy che viene aggiunta è la seguente:

    { "Version": "2012-10-17", "Statement": [ { "Action": [ "cloudwatch:PutMetricData" ], "Effect": "Allow", "Resource": "*" } ] }
  2. Sul tuo DLAMI, esegui AWS configure e specifica le credenziali utente IAM.

    $ aws configure
  3. Potrebbe essere necessario apportare alcune modifiche all'utilità gpumon prima di eseguirla. È possibile trovare l'utilità gpumon e README nella posizione definita nel seguente blocco di codice. Per ulteriori informazioni sullo gpumon.py script, consulta la posizione dello script in Amazon S3.

    Folder: ~/tools/GPUCloudWatchMonitor Files: ~/tools/GPUCloudWatchMonitor/gpumon.py ~/tools/GPUCloudWatchMonitor/README

    Opzioni:

    • Cambia la regione in gpumon.py se l'istanza NON è in us-east-1.

    • Modifica altri parametri, ad esempio CloudWatch namespace il periodo di riferimento constore_reso.

  4. Attualmente lo script supporta solo Python 3. Attiva l'ambiente Python 3 del tuo framework preferito o attiva l'ambiente Python 3 generale DLAMI.

    $ source activate python3
  5. Esegui l'utilità gpumon in background.

    (python3)$ python gpumon.py &
  6. Apri il browser su https://console.aws.amazon.com/cloudwatch/, quindi seleziona metrica. Avrà uno spazio dei nomi «Train». DeepLearning

    Suggerimento

    Puoi cambiare lo spazio dei nomi modificando gpumon.py. Puoi anche modificare l'intervallo di reporting regolando store_reso.

Di seguito è riportato un esempio di CloudWatch grafico che riporta un'esecuzione di gpumon.py che monitora un processo di formazione sull'istanza p2.8xlarge.

Monitoraggio GPU attivo CloudWatch

Questi altri argomenti sul monitoraggio e l'ottimizzazione GPU potrebbero essere interessanti: