Monitor GPUs dengan CloudWatch - Pembelajaran Mendalam AMI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Monitor GPUs dengan CloudWatch

Ketika Anda menggunakan DLAMI dengan Anda, GPU Anda mungkin menemukan bahwa Anda mencari cara untuk melacak penggunaannya selama pelatihan atau inferensi. Ini dapat berguna untuk mengoptimalkan pipeline data Anda, dan menyetel jaringan pembelajaran mendalam Anda.

Ada dua cara untuk mengonfigurasi GPU metrik dengan CloudWatch:

Konfigurasikan metrik dengan AWS CloudWatch agen (Disarankan)

Integrasikan Anda DLAMI dengan CloudWatch agen terpadu untuk mengonfigurasi GPU metrik dan memantau pemanfaatan GPU proses bersama dalam instans akselerasi AmazonEC2.

Ada empat cara untuk mengonfigurasi GPUmetrik dengan AndaDLAMI:

Untuk informasi tentang pembaruan dan patch keamanan, lihat Penambalan keamanan untuk agen AWS CloudWatch

Prasyarat

Untuk memulai, Anda harus mengonfigurasi IAM izin EC2 instans Amazon yang memungkinkan instans Anda mendorong metrik. CloudWatch Untuk langkah-langkah mendetail, lihat Membuat IAM peran dan pengguna untuk digunakan dengan CloudWatch agen.

Konfigurasikan GPU metrik minimal

Konfigurasikan GPU metrik minimal menggunakan dlami-cloudwatch-agent@minimal systemd layanan. Layanan ini mengonfigurasi metrik berikut:

  • utilization_gpu

  • utilization_memory

Anda dapat menemukan systemd layanan untuk GPU metrik minimal yang telah dikonfigurasi sebelumnya di lokasi berikut:

/opt/aws/amazon-cloudwatch-agent/etc/dlami-amazon-cloudwatch-agent-minimal.json

Aktifkan dan mulai systemd layanan dengan perintah berikut:

sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal

Konfigurasikan GPU metrik paral

Konfigurasikan GPU metrik sebagian menggunakan dlami-cloudwatch-agent@partial systemd layanan. Layanan ini mengonfigurasi metrik berikut:

  • utilization_gpu

  • utilization_memory

  • memory_total

  • memory_used

  • memory_free

Anda dapat menemukan systemd layanan untuk GPU metrik sebagian yang telah dikonfigurasi sebelumnya di lokasi berikut:

/opt/aws/amazon-cloudwatch-agent/etc/dlami-amazon-cloudwatch-agent-partial.json

Aktifkan dan mulai systemd layanan dengan perintah berikut:

sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial

Konfigurasikan semua GPU metrik yang tersedia

Konfigurasikan semua GPU metrik yang tersedia menggunakan dlami-cloudwatch-agent@all systemd layanan. Layanan ini mengonfigurasi metrik berikut:

  • utilization_gpu

  • utilization_memory

  • memory_total

  • memory_used

  • memory_free

  • temperature_gpu

  • power_draw

  • fan_speed

  • pcie_link_gen_current

  • pcie_link_width_current

  • encoder_stats_session_count

  • encoder_stats_average_fps

  • encoder_stats_average_latency

  • clocks_current_graphics

  • clocks_current_sm

  • clocks_current_memory

  • clocks_current_video

Anda dapat menemukan systemd layanan untuk semua GPU metrik yang telah dikonfigurasi sebelumnya yang tersedia di lokasi berikut:

/opt/aws/amazon-cloudwatch-agent/etc/dlami-amazon-cloudwatch-agent-all.json

Aktifkan dan mulai systemd layanan dengan perintah berikut:

sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all

Konfigurasikan GPU metrik khusus

Jika metrik yang telah dikonfigurasi sebelumnya tidak memenuhi persyaratan Anda, Anda dapat membuat file konfigurasi CloudWatch agen kustom.

Buat file konfigurasi khusus

Untuk membuat file konfigurasi khusus, lihat langkah-langkah terperinci di Buat atau edit file konfigurasi CloudWatch agen secara manual.

Untuk contoh ini, asumsikan bahwa definisi skema terletak di/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json.

Konfigurasikan metrik dengan file kustom

Jalankan perintah berikut untuk mengonfigurasi CloudWatch agen sesuai dengan file kustom Anda:

sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl \ -a fetch-config -m ec2 -s -c \ file:/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json

Penambalan keamanan untuk agen AWS CloudWatch

Baru dirilis DLAMIs dikonfigurasi dengan patch keamanan AWS CloudWatch agen terbaru yang tersedia. Lihat bagian berikut untuk memperbarui Anda saat ini DLAMI dengan patch keamanan terbaru tergantung pada sistem operasi pilihan Anda.

Amazon Linux 2

Gunakan yum untuk mendapatkan patch keamanan AWS CloudWatch agen terbaru untuk Amazon Linux 2DLAMI.

sudo yum update

Ubuntu

Untuk mendapatkan patch AWS CloudWatch keamanan terbaru untuk DLAMI dengan Ubuntu, perlu menginstal ulang AWS CloudWatch agen menggunakan tautan unduhan Amazon S3.

wget https://s3.region.amazonaws.com/amazoncloudwatch-agent-region/ubuntu/arm64/latest/amazon-cloudwatch-agent.deb

Untuk informasi selengkapnya tentang menginstal AWS CloudWatch agen menggunakan tautan unduhan Amazon S3, lihat Menginstal dan menjalankan CloudWatch agen di server Anda.

Konfigurasikan metrik dengan skrip yang sudah diinstal sebelumnya gpumon.py

Sebuah utilitas yang disebut gpumon.py sudah diinstal pada AndaDLAMI. Ini terintegrasi dengan CloudWatch dan mendukung pemantauan per GPU penggunaan: GPU memori, GPU suhu, dan GPU Daya. Skrip secara berkala mengirimkan data yang dipantau ke CloudWatch. Anda dapat mengonfigurasi tingkat granularitas untuk data yang dikirim CloudWatch dengan mengubah beberapa pengaturan dalam skrip. Namun, sebelum memulai skrip, Anda harus mengatur CloudWatch untuk menerima metrik.

Cara mengatur dan menjalankan GPU pemantauan dengan CloudWatch
  1. Buat IAM pengguna, atau ubah pengguna yang sudah ada agar memiliki kebijakan untuk memublikasikan metrik ke CloudWatch. Jika Anda membuat pengguna baru, harap perhatikan kredensialnya karena Anda akan membutuhkannya di langkah berikutnya.

    IAMKebijakan untuk mencari adalah “cloudwatch:PutMetricData”. Kebijakan yang ditambahkan adalah sebagai berikut:

    { "Version": "2012-10-17", "Statement": [ { "Action": [ "cloudwatch:PutMetricData" ], "Effect": "Allow", "Resource": "*" } ] }
    Tip

    Untuk informasi selengkapnya tentang membuat IAM pengguna dan menambahkan kebijakan CloudWatch, lihat CloudWatch dokumentasi.

  2. Pada AndaDLAMI, jalankan AWS configure dan tentukan kredensi IAM pengguna.

    $ aws configure
  3. Anda mungkin perlu membuat beberapa modifikasi pada utilitas gpumon sebelum menjalankannya. Anda dapat menemukan utilitas gpumon dan README di lokasi yang ditentukan dalam blok kode berikut. Untuk informasi selengkapnya tentang gpumon.py skrip, lihat lokasi skrip Amazon S3.

    Folder: ~/tools/GPUCloudWatchMonitor Files: ~/tools/GPUCloudWatchMonitor/gpumon.py ~/tools/GPUCloudWatchMonitor/README

    Opsi:

    • Ubah wilayah di gpumon.py jika instance Anda ada NOT di us-east-1.

    • Ubah parameter lain seperti CloudWatch namespace atau periode pelaporan denganstore_reso.

  4. Saat ini skrip hanya mendukung Python 3. Aktifkan lingkungan Python 3 kerangka kerja pilihan Anda atau aktifkan lingkungan DLAMI Python 3 umum.

    $ source activate python3
  5. Jalankan utilitas gpumon di latar belakang.

    (python3)$ python gpumon.py &
  6. Buka browser Anda ke metrik https://console.aws.amazon.com/cloudwatch/lalu pilih. Ini akan memiliki namespace ''. DeepLearningTrain

    Tip

    Anda dapat mengubah namespace dengan memodifikasi gpumon.py. Anda juga dapat mengubah interval pelaporan dengan menyesuaikanstore_reso.

Berikut ini adalah contoh CloudWatch bagan pelaporan pada menjalankan gpumon.py memantau pekerjaan pelatihan pada instance p2.8xlarge.

GPUpemantauan pada CloudWatch

Anda mungkin tertarik dengan topik lain tentang GPU pemantauan dan pengoptimalan: