Instal paket eksportir metrik di klaster Anda HyperPod - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Instal paket eksportir metrik di klaster Anda HyperPod

Dalam skrip siklus hidup konfigurasi dasar yang disediakan SageMaker HyperPod tim juga mencakup instalasi berbagai paket eksportir metrik. Untuk mengaktifkan langkah instalasi, satu-satunya hal yang perlu Anda lakukan adalah mengatur parameter enable_observability=True dalam config.pyfile. Skrip siklus hidup dirancang untuk mem-bootstrap klaster Anda dengan paket eksportir metrik sumber terbuka berikut.

Nama Node target penyebaran skrip Deskripsi eksportir
Eksportir slurm untuk Prometheus Kepala (pengontrol) simpul

Mengekspor metrik Akuntansi Slurm.

Eksportir simpul Elastic Fabric Adapter (EFA)

Hitung simpul

Mengekspor metrik dari node cluster dan EFA. Paket ini adalah garpu dari eksportir simpul Prometheus.

Eksportir Manajemen GPU Pusat Data NVIDIA (DCGM)

Hitung simpul

Mengekspor metrik NVIDIA DCGM tentang kesehatan dan kinerja NVIDIA. GPUs

Dengan enable_observability=True dalam config.pyfile, langkah instalasi berikut diaktifkan dalam lifecycle_script.pyskrip.

# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()

Pada node komputasi, skrip menginstal eksportir NVIDIA Data Center GPU Management (DCGM) dan eksportir node Elastic Fabric Adapter (EFA). Eksportir DCGM adalah eksportir untuk Prometheus yang mengumpulkan metrik dari GPUs NVIDIA, memungkinkan pemantauan penggunaan, kinerja, dan kesehatan GPU. Eksportir node EFA, di sisi lain, mengumpulkan metrik yang terkait dengan antarmuka jaringan EFA, yang penting untuk komunikasi latensi rendah dan bandwidth tinggi di cluster HPC.

Pada node kepala, skrip menginstal eksportir Slurm untuk Prometheus dan perangkat lunak open-source Prometheus. Eksportir Slurm menyediakan Prometheus dengan metrik yang terkait dengan pekerjaan Slurm, partisi, dan status node.

Perhatikan bahwa skrip siklus hidup dirancang untuk menginstal semua paket eksportir sebagai wadah docker, jadi paket Docker juga harus diinstal pada node head dan compute. Skrip untuk komponen ini disediakan dengan mudah di utilsfolder repositori Pelatihan GitHub Terdistribusi Awsome.

Setelah berhasil menyiapkan HyperPod klaster yang diinstal dengan paket eksportir, lanjutkan ke topik berikutnya untuk menyelesaikan penyiapan Amazon Managed Service untuk Prometheus dan Amazon Managed Grafana.