Instal paket eksportir metrik di klaster Anda HyperPod

Dalam skrip siklus hidup konfigurasi dasar yang disediakan SageMaker HyperPod tim juga mencakup instalasi berbagai paket eksportir metrik. Untuk mengaktifkan langkah instalasi, satu-satunya hal yang perlu Anda lakukan adalah mengatur parameter enable_observability=True dalam config.pyfile. Skrip siklus hidup dirancang untuk mem-bootstrap klaster Anda dengan paket eksportir metrik sumber terbuka berikut.

Nama	Node target penyebaran skrip	Deskripsi eksportir
Eksportir slurm untuk Prometheus	Kepala (pengontrol) simpul	Mengekspor metrik Akuntansi Slurm.
Eksportir simpul Elastic Fabric Adapter (EFA)	Hitung simpul	Mengekspor metrik dari node cluster dan EFA. Paket ini adalah garpu dari eksportir simpul Prometheus.
Eksportir Manajemen GPU Pusat Data NVIDIA (DCGM)	Hitung simpul	Mengekspor metrik NVIDIA DCGM tentang kesehatan dan kinerja NVIDIA. GPUs

Dengan enable_observability=True dalam config.pyfile, langkah instalasi berikut diaktifkan dalam lifecycle_script.pyskrip.


# Install metric exporting software and Prometheus for observability
if Config.enable_observability:
    if node_type == SlurmNodeType.COMPUTE_NODE:
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_dcgm_exporter.sh").run()
        ExecuteBashScript("./utils/install_efa_node_exporter.sh").run()

    if node_type == SlurmNodeType.HEAD_NODE:
        wait_for_scontrol()
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_slurm_exporter.sh").run()
        ExecuteBashScript("./utils/install_prometheus.sh").run()

Pada node komputasi, skrip menginstal eksportir NVIDIA Data Center GPU Management (DCGM) dan eksportir node Elastic Fabric Adapter (EFA). Eksportir DCGM adalah eksportir untuk Prometheus yang mengumpulkan metrik dari GPUs NVIDIA, memungkinkan pemantauan penggunaan, kinerja, dan kesehatan GPU. Eksportir node EFA, di sisi lain, mengumpulkan metrik yang terkait dengan antarmuka jaringan EFA, yang penting untuk komunikasi latensi rendah dan bandwidth tinggi di cluster HPC.

Pada node kepala, skrip menginstal eksportir Slurm untuk Prometheus dan perangkat lunak open-source Prometheus. Eksportir Slurm menyediakan Prometheus dengan metrik yang terkait dengan pekerjaan Slurm, partisi, dan status node.

Perhatikan bahwa skrip siklus hidup dirancang untuk menginstal semua paket eksportir sebagai wadah docker, jadi paket Docker juga harus diinstal pada node head dan compute. Skrip untuk komponen ini disediakan dengan mudah di utilsfolder repositori Pelatihan GitHub Terdistribusi Awsome.

Setelah berhasil menyiapkan HyperPod klaster yang diinstal dengan paket eksportir, lanjutkan ke topik berikutnya untuk menyelesaikan penyiapan Amazon Managed Service untuk Prometheus dan Amazon Managed Grafana.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Prasyarat lengkap

Validasi pengaturan Prometheus