Metrik Pelatihan Metrik inferensi Metrik tata kelola tugas Metrik penskalaan Metrik klaster Metrik instans Metrik komputasi yang dipercepat Lalu lintas jaringan Lalu lintas sistem file

Metrik klaster

Amazon SageMaker HyperPod (SageMaker HyperPod) menerbitkan berbagai metrik di 9 kategori berbeda ke Layanan Terkelola Amazon untuk ruang kerja Prometheus Anda. Tidak semua metrik diaktifkan secara default atau ditampilkan di ruang kerja Grafana Terkelola Amazon Anda. Tabel berikut menunjukkan metrik mana yang diaktifkan secara default saat Anda menginstal add-on observabilitas, kategori mana yang memiliki metrik tambahan yang dapat diaktifkan untuk informasi klaster yang lebih terperinci, dan di mana metrik tersebut muncul di ruang kerja Grafana yang Dikelola Amazon.

Kategori metrik	Diaktifkan secara default	Metrik lanjutan tambahan tersedia?	Tersedia di bawah dasbor Grafana mana?
Metrik Pelatihan	Ya	Ya	Pelatihan
Metrik inferensi	Ya	Tidak	Inferensi
Metrik tata kelola tugas	Tidak	Ya	Tidak ada. Kueri Layanan Terkelola Amazon Anda untuk ruang kerja Prometheus untuk membangun dasbor Anda sendiri.
Metrik penskalaan	Tidak	Ya	Tidak ada. Kueri Layanan Terkelola Amazon Anda untuk ruang kerja Prometheus untuk membangun dasbor Anda sendiri.
Metrik klaster	Ya	Ya	Klaster
Metrik instans	Ya	Ya	Klaster
Metrik komputasi yang dipercepat	Ya	Ya	Tugas, Cluster
Lalu lintas jaringan	Tidak	Ya	Klaster
Sistem file	Ya	Tidak	Sistem file

Tabel berikut menjelaskan metrik yang tersedia untuk memantau SageMaker HyperPod klaster Anda, yang diatur berdasarkan kategori.

Metrik Pelatihan

Gunakan metrik ini untuk melacak kinerja tugas pelatihan yang dijalankan di SageMaker HyperPod cluster.

Untuk Nama Metrik, ketik .	Deskripsi	Diaktifkan secara default	Sumber metrik
Metrik Kubeflow	https://github.com/kubeflow/pelatih	Ya	Kubeflow
Metrik pod Kubernetes	https://github.com/kubernetes/kube-state-metrics	Ya	Kubernetes
`training_uptime_percentage`	Persentase waktu pelatihan dari total ukuran jendela	Tidak	SageMaker HyperPod operator pelatihan
`training_manual_recovery_count`	Jumlah total restart manual yang dilakukan pada pekerjaan	Tidak	SageMaker HyperPod operator pelatihan
`training_manual_downtime_ms`	Total waktu dalam milidetik pekerjaan turun karena intervensi manual	Tidak	SageMaker HyperPod operator pelatihan
`training_auto_recovery_count`	Jumlah total pemulihan otomatis	Tidak	SageMaker HyperPod operator pelatihan
`training_auto_recovery_downtime`	Total waktu overhead infrastruktur dalam milidetik selama pemulihan kesalahan	Tidak	SageMaker HyperPod operator pelatihan
`training_fault_count`	Jumlah total kesalahan yang ditemui selama pelatihan	Tidak	SageMaker HyperPod operator pelatihan
`training_fault_type_count`	Distribusi kesalahan menurut jenis	Tidak	SageMaker HyperPod operator pelatihan
`training_fault_recovery_time_ms`	Waktu pemulihan dalam milidetik untuk setiap jenis kesalahan	Tidak	SageMaker HyperPod operator pelatihan
`training_time_ms`	Total waktu dalam milidetik yang dihabiskan dalam pelatihan aktual	Tidak	SageMaker HyperPod operator pelatihan

Metrik inferensi

Gunakan metrik ini untuk melacak kinerja tugas inferensi di cluster. SageMaker HyperPod

Untuk Nama Metrik, ketik .	Deskripsi	Diaktifkan secara default	Sumber metrik
`model_invocations_total`	Total jumlah permintaan pemanggilan ke model	Ya	SageMaker HyperPod operator inferensi
`model_errors_total`	Jumlah total kesalahan selama pemanggilan model	Ya	SageMaker HyperPod operator inferensi
`model_concurrent_requests`	Permintaan model bersamaan aktif	Ya	SageMaker HyperPod operator inferensi
`model_latency_milliseconds`	Latensi pemanggilan model dalam milidetik	Ya	SageMaker HyperPod operator inferensi
`model_ttfb_milliseconds`	Waktu modelkan ke latensi byte pertama dalam milidetik	Ya	SageMaker HyperPod operator inferensi
TGI	Metrik ini dapat digunakan untuk memantau performa TGI, penerapan skala otomatis, dan membantu mengidentifikasi kemacetan. Untuk daftar rinci metrik, lihat https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md.	Ya	Wadah model
LMI	Metrik ini dapat digunakan untuk memantau performa LMI, dan membantu mengidentifikasi kemacetan. Untuk daftar rinci metrik, lihat https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md.	Ya	Wadah model

Metrik tata kelola tugas

Gunakan metrik ini untuk memantau tata kelola tugas dan alokasi sumber daya di klaster. SageMaker HyperPod

Untuk Nama Metrik, ketik .	Deskripsi	Diaktifkan secara default	Sumber metrik
Kueue	Lihat https://kueue.sigs.k8s. io/docs/reference/metrics/.	Tidak	Kueue

Metrik penskalaan

Gunakan metrik ini untuk memantau perilaku dan kinerja auto-scaling di klaster. SageMaker HyperPod

Untuk Nama Metrik, ketik .	Deskripsi	Diaktifkan secara default	Sumber metrik
Metrik Operator KEDA	Lihat https://keda. sh/docs/2.17/integrations/prometheus/#operator.	Tidak	Kubernetes Event Driven Autoscaler (KEDA)
Metrik Webhook KEDA	Lihat https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhook.	Tidak	Kubernetes Event Driven Autoscaler (KEDA)
Metrik server	Lihat https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server.	Tidak	Kubernetes Event Driven Autoscaler (KEDA)

Metrik klaster

Gunakan metrik ini untuk memantau kesehatan klaster secara keseluruhan dan alokasi sumber daya.

Untuk Nama Metrik, ketik .	Deskripsi	Diaktifkan secara default	Sumber metrik
Kondisi klaster	Metrik server API Kubernetes. Lihat https://kubernetes. io/docs/reference/instrumentation/metrics/.	Ya	Kubernetes
Kubestate	Lihat https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources.	Terbatas.	Kubernetes
Lanjutan	Lihat https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources.	Tidak	Kubernetes

Metrik instans

Gunakan metrik ini untuk memantau kinerja dan kesehatan instans individu.

Untuk Nama Metrik, ketik .	Deskripsi	Diaktifkan secara default	Sumber metrik
Metrik Simpul	Lihat https://github.com/prometheus/node_exporter? tab = readme-ov-file # enabled-by-default.	Ya	Kubernetes
Metrik Kontainer	Metrik kontainer diekspos oleh Cadvisor. Lihat https://github.com/google/cadvisor.	Ya	Kubernetes

Metrik komputasi yang dipercepat

Gunakan metrik ini untuk memantau kinerja, kesehatan, dan pemanfaatan perangkat komputasi yang dipercepat individual di cluster Anda.

Untuk Nama Metrik, ketik .	Deskripsi	Diaktifkan secara default	Sumber metrik
GPU	Metrik DCGM. Lihat https://github.com/NVIDIA/dcgm- exporter/blob/main/etc/dcp -metrics-included.csv.	Terbatas.	Manajer GPU Pusat Data NVIDIA (DCGM)
GPU NVIDIA (lanjutan)	Metrik DCGM yang dikomentari dalam file CSV berikut: https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp	Tidak	Manajer GPU Pusat Data NVIDIA (DCGM)
AWS Trainium	Metrik neuron. Lihat https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html# neuron-monitor-nc-counters.	Tidak	AWS Monitor Neuron

Lalu lintas jaringan

Gunakan metrik ini untuk memantau kinerja dan kesehatan Adaptor Kain Elastis (EFA) di klaster Anda.

Untuk Nama Metrik, ketik .	Deskripsi	Diaktifkan secara default	Sumber metrik
EFA	Lihat https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md.	Tidak	Elastic Fabric Adapter

Lalu lintas sistem file

Untuk Nama Metrik, ketik .	Deskripsi	Diaktifkan secara default	Sumber metrik
Sistem file	Metrik Amazon FSx untuk Lustre dari Amazon: CloudWatch Pemantauan dengan Amazon	Ya	Amazon FSx untuk Lustre

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Metrik-metrik kustom

Docker yang Telah Dikonfigurasi