Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Referensi metrik yang diekspor
Bagian berikut menyajikan daftar lengkap metrik yang diekspor dari ke SageMaker HyperPod Amazon Managed Service untuk Prometheus setelah konfigurasi stack berhasil untuk observabilitas. AWS CloudFormation SageMaker HyperPod Anda dapat mulai memantau metrik ini yang divisualisasikan di dasbor Grafana Terkelola Amazon.
Dasbor eksportir slurm
Memberikan informasi yang divisualisasikan dari cluster Slurm pada. SageMaker HyperPod
Jenis metrik
-
Ikhtisar Cluster: Menampilkan jumlah total node, pekerjaan, dan statusnya.
-
Job Metrics: Memvisualisasikan jumlah dan status pekerjaan dari waktu ke waktu.
-
Metrik Node: Menampilkan status node, alokasi, dan sumber daya yang tersedia.
-
Metrik Partisi: Memantau metrik khusus partisi seperti CPU, memori, dan pemanfaatan GPU.
-
Job Efficiency: Menghitung efisiensi pekerjaan berdasarkan sumber daya yang digunakan.
Daftar metrik
Nama metrik | Deskripsi |
---|---|
slurm_job_count |
Jumlah total pekerjaan di cluster Slurm |
slurm_job_state_count |
Hitungan pekerjaan di setiap negara bagian (misalnya, berjalan, tertunda, selesai) |
slurm_node_count
|
Jumlah total node di cluster Slurm |
slurm_node_state_count
|
Hitungan node di setiap negara bagian (misalnya, idle, alloc, mix) |
slurm_partition_node_count
|
Hitungan node di setiap partisi |
slurm_partition_job_count
|
Hitungan pekerjaan di setiap partisi |
slurm_partition_alloc_cpus
|
Jumlah total yang dialokasikan CPUs di setiap partisi |
slurm_partition_free_cpus
|
Jumlah total yang tersedia CPUs di setiap partisi |
slurm_partition_alloc_memory
|
Total memori yang dialokasikan di setiap partisi |
slurm_partition_free_memory
|
Total memori yang tersedia di setiap partisi |
slurm_partition_alloc_gpus
|
Total dialokasikan GPUs di setiap partisi |
slurm_partition_free_gpus
|
Total tersedia GPUs di setiap partisi |
Dasbor eksportir simpul
Memberikan informasi visualisasi metrik sistem yang dikumpulkan oleh eksportir node Prometheus dari node
Jenis metrik
-
Ikhtisar sistem: Menampilkan rata-rata beban CPU dan penggunaan memori.
-
Metrik memori: Memvisualisasikan pemanfaatan memori termasuk memori total, memori bebas, dan ruang swap.
-
Penggunaan disk: Memantau pemanfaatan dan ketersediaan ruang disk.
-
Lalu lintas jaringan: Menampilkan byte jaringan yang diterima dan ditransmisikan dari waktu ke waktu.
-
Metrik sistem file: Menganalisis penggunaan dan ketersediaan sistem file.
-
Metrik I/O Disk: Memvisualisasikan aktivitas membaca dan menulis disk.
Daftar metrik
Untuk daftar lengkap metrik yang diekspor, lihat Eksportir Node
Nama metrik | Deskripsi |
---|---|
node_load1
|
Rata-rata beban 1 menit |
node_load5
|
Rata-rata beban 5 menit |
node_load15
|
Rata-rata beban 15 menit |
node_memory_MemTotal
|
Total memori sistem |
node_memory_MemFree
|
Memori sistem gratis |
node_memory_MemAvailable
|
Memori yang tersedia untuk alokasi ke proses |
node_memory_Buffers
|
Memori yang digunakan oleh kernel untuk buffering |
node_memory_Cached
|
Memori yang digunakan oleh kernel untuk caching data sistem file |
node_memory_SwapTotal
|
Total ruang swap yang tersedia |
node_memory_SwapFree
|
Ruang swap gratis |
node_memory_SwapCached
|
Memori yang pernah ditukar, ditukar kembali tetapi masih dalam swap |
node_filesystem_avail_bytes
|
Ruang disk yang tersedia dalam byte |
node_filesystem_size_bytes
|
Total ruang disk dalam byte |
node_filesystem_free_bytes
|
Kosongkan ruang disk dalam byte |
node_network_receive_bytes
|
Byte jaringan diterima |
node_network_transmit_bytes
|
Byte jaringan ditransmisikan |
node_disk_read_bytes
|
Byte disk dibaca |
node_disk_written_bytes
|
Byte disk ditulis |
Dasbor eksportir NVIDIA DCGM
Memberikan informasi visualisasi metrik GPU NVIDIA yang dikumpulkan oleh eksportir NVIDIA
Jenis metrik
-
Ikhtisar GPU: Menampilkan pemanfaatan GPU, suhu, penggunaan daya, dan penggunaan memori.
-
Metrik Suhu: Memvisualisasikan suhu GPU dari waktu ke waktu.
-
Penggunaan Daya: Memantau penarikan daya GPU dan tren penggunaan daya.
-
Pemanfaatan Memori: Menganalisis penggunaan memori GPU termasuk memori bekas, gratis, dan total.
-
Kecepatan Kipas: Menampilkan kecepatan dan variasi kipas GPU.
-
Kesalahan ECC: Melacak kesalahan ECC memori GPU dan kesalahan yang tertunda.
Daftar metrik
Tabel berikut menunjukkan daftar metrik yang memberikan wawasan tentang kesehatan dan kinerja GPU NVIDIA, termasuk frekuensi clock, suhu, penggunaan daya, pemanfaatan memori, kecepatan kipas, dan metrik kesalahan.
Nama metrik | Deskripsi |
---|---|
DCGM_FI_DEV_SM_CLOCK
|
Frekuensi jam SM (in MHz) |
DCGM_FI_DEV_MEM_CLOCK
|
Frekuensi jam memori (in MHz) |
DCGM_FI_DEV_MEMORY_TEMP
|
Suhu memori (dalam C) |
DCGM_FI_DEV_GPU_TEMP
|
Suhu GPU (dalam C) |
DCGM_FI_DEV_POWER_USAGE
|
Daya tarik (dalam W) |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
|
Konsumsi energi total sejak boot (dalam mJ) |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER
|
Jumlah total percobaan PCIe ulang |
DCGM_FI_DEV_MEM_COPY_UTIL
|
Pemanfaatan memori (dalam%) |
DCGM_FI_DEV_ENC_UTIL
|
Pemanfaatan encoder (dalam%) |
DCGM_FI_DEV_DEC_UTIL
|
Pemanfaatan decoder (dalam%) |
DCGM_FI_DEV_XID_ERRORS
|
Nilai kesalahan XID terakhir yang ditemui |
DCGM_FI_DEV_FB_FREE
|
Frame buffer memori bebas (dalam MiB) |
DCGM_FI_DEV_FB_USED
|
Memori buffer bingkai yang digunakan (dalam MiB) |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL
|
Jumlah total penghitung NVLink bandwidth untuk semua jalur |
DCGM_FI_DEV_VGPU_LICENSE_STATUS
|
Status Lisensi vGPU |
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS
|
Jumlah baris yang dipetakan ulang untuk kesalahan yang tidak dapat diperbaiki |
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS
|
Jumlah baris yang dipetakan ulang untuk kesalahan yang dapat diperbaiki |
DCGM_FI_DEV_ROW_REMAP_FAILURE
|
Apakah pemetaan ulang baris gagal |
Dasbor metrik EFA
Memberikan informasi visualisasi metrik dari Amazon Elastic Fabric Adapter (EFA) yang dilengkapi pada instans P yang dikumpulkan oleh eksportir node EFA.
Jenis metrik
-
Metrik kesalahan EFA: Memvisualisasikan kesalahan seperti kesalahan alokasi, kesalahan perintah, dan kesalahan peta memori.
-
Lalu lintas jaringan EFA: Memantau byte, paket, dan permintaan kerja yang diterima dan ditransmisikan.
-
Kinerja EFA RDMA: Menganalisis operasi baca dan tulis RDMA, termasuk byte yang ditransfer dan tingkat kesalahan.
-
Umur port EFA: Menampilkan umur port EFA dari waktu ke waktu.
-
Paket keep-alive EFA: Melacak jumlah paket keep-alive yang diterima.
Daftar metrik
Tabel berikut menunjukkan daftar metrik yang memberikan wawasan tentang berbagai aspek operasi EFA, termasuk kesalahan, perintah yang diselesaikan, lalu lintas jaringan, dan pemanfaatan sumber daya.
Nama metrik | Deskripsi |
---|---|
node_amazonefa_info
|
Data non-numerikfrom /sys/class/infiniband/, nilai selalu 1. |
node_amazonefa_lifespan
|
Umur pelabuhan |
node_amazonefa_rdma_read_bytes
|
Jumlah byte yang dibaca dengan RDMA |
node_amazonefa_rdma_read_resp_bytes
|
Jumlah byte respons baca dengan RDMA |
node_amazonefa_rdma_read_wr_err
|
Jumlah kesalahan baca tulis dengan RDMA |
node_amazonefa_rdma_read_wrs
|
Jumlah rs baca dengan RDMA |
node_amazonefa_rdma_write_bytes
|
Jumlah byte yang ditulis dengan RDMA |
node_amazonefa_rdma_write_recv_bytes
|
Jumlah byte yang ditulis dan diterima dengan RDMA |
node_amazonefa_rdma_write_wr_err
|
Jumlah byte yang ditulis dengan kesalahan RDMA |
node_amazonefa_rdma_write_wrs
|
Jumlah byte ditulis wrs RDMA |
node_amazonefa_recv_bytes
|
Jumlah byte yang diterima |
node_amazonefa_recv_wrs
|
Jumlah byte yang diterima wrs |
node_amazonefa_rx_bytes
|
Jumlah byte yang diterima |
node_amazonefa_rx_drops
|
Jumlah paket yang dijatuhkan |
node_amazonefa_rx_pkts
|
Jumlah paket yang diterima |
node_amazonefa_send_bytes
|
Jumlah byte yang dikirim |
node_amazonefa_send_wrs
|
Jumlah wrs yang dikirim |
node_amazonefa_tx_bytes
|
Jumlah byte yang ditransmisikan |
node_amazonefa_tx_pkts
|
Jumlah paket yang ditransmisikan |
FSx untuk dasbor metrik Lustre
Memberikan informasi visualisasi metrik dari Amazon FSx untuk sistem file Lustre yang dikumpulkan oleh Amazon. CloudWatch
catatan
Dasbor Grafana FSx for Lustre menggunakan Amazon CloudWatch sebagai sumber datanya, yang berbeda dari dasbor lain yang telah Anda konfigurasikan untuk menggunakan Amazon Managed Service untuk Prometheus. Untuk memastikan pemantauan dan visualisasi metrik yang akurat terkait dengan sistem file FSx for Lustre Anda, konfigurasikan dasbor FSx for Lustre untuk menggunakan CloudWatch Amazon sebagai sumber data, dengan menentukan hal yang Wilayah AWS sama di mana sistem file for Lustre FSx Anda digunakan.
Jenis metrik
-
DataReadBytes: Jumlah byte untuk operasi membaca sistem file.
-
DataWriteBytes: Jumlah byte untuk operasi penulisan sistem file.
-
DataReadOperations: Jumlah operasi baca.
-
DataWriteOperations: Jumlah operasi tulis.
-
MetadataOperations: Jumlah operasi meta data.
-
FreeDataStorageCapacity: Jumlah kapasitas penyimpanan yang tersedia.