Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Metrik klaster
Amazon SageMaker HyperPod (SageMaker HyperPod) menerbitkan berbagai metrik di 9 kategori berbeda ke Layanan Terkelola Amazon untuk ruang kerja Prometheus Anda. Tidak semua metrik diaktifkan secara default atau ditampilkan di ruang kerja Grafana Terkelola Amazon Anda. Tabel berikut menunjukkan metrik mana yang diaktifkan secara default saat Anda menginstal add-on observabilitas, kategori mana yang memiliki metrik tambahan yang dapat diaktifkan untuk informasi klaster yang lebih terperinci, dan di mana metrik tersebut muncul di ruang kerja Grafana yang Dikelola Amazon.
Kategori metrik | Diaktifkan secara default | Metrik lanjutan tambahan tersedia? | Tersedia di bawah dasbor Grafana mana? |
---|---|---|---|
Metrik Pelatihan | Ya | Ya | Pelatihan |
Metrik inferensi | Ya | Tidak | Inferensi |
Metrik tata kelola tugas | Tidak | Ya | Tidak ada. Kueri Layanan Terkelola Amazon Anda untuk ruang kerja Prometheus untuk membangun dasbor Anda sendiri. |
Metrik penskalaan | Tidak | Ya | Tidak ada. Kueri Layanan Terkelola Amazon Anda untuk ruang kerja Prometheus untuk membangun dasbor Anda sendiri. |
Metrik klaster | Ya | Ya | Klaster |
Metrik instans | Ya | Ya | Klaster |
Metrik komputasi yang dipercepat | Ya | Ya | Tugas, Cluster |
Lalu lintas jaringan | Tidak | Ya | Klaster |
Sistem file | Ya | Tidak | Sistem file |
Tabel berikut menjelaskan metrik yang tersedia untuk memantau SageMaker HyperPod klaster Anda, yang diatur berdasarkan kategori.
Metrik Pelatihan
Gunakan metrik ini untuk melacak kinerja tugas pelatihan yang dijalankan di SageMaker HyperPod cluster.
Untuk Nama Metrik, ketik . | Deskripsi | Diaktifkan secara default | Sumber metrik |
---|---|---|---|
Metrik Kubeflow | https://github.com/kubeflow/pelatih |
Ya | Kubeflow |
Metrik pod Kubernetes | https://github.com/kubernetes/kube-state-metrics |
Ya | Kubernetes |
training_uptime_percentage |
Persentase waktu pelatihan dari total ukuran jendela | Tidak | SageMaker HyperPod operator pelatihan |
training_manual_recovery_count |
Jumlah total restart manual yang dilakukan pada pekerjaan | Tidak | SageMaker HyperPod operator pelatihan |
training_manual_downtime_ms |
Total waktu dalam milidetik pekerjaan turun karena intervensi manual | Tidak | SageMaker HyperPod operator pelatihan |
training_auto_recovery_count |
Jumlah total pemulihan otomatis | Tidak | SageMaker HyperPod operator pelatihan |
training_auto_recovery_downtime |
Total waktu overhead infrastruktur dalam milidetik selama pemulihan kesalahan | Tidak | SageMaker HyperPod operator pelatihan |
training_fault_count |
Jumlah total kesalahan yang ditemui selama pelatihan | Tidak | SageMaker HyperPod operator pelatihan |
training_fault_type_count |
Distribusi kesalahan menurut jenis | Tidak | SageMaker HyperPod operator pelatihan |
training_fault_recovery_time_ms |
Waktu pemulihan dalam milidetik untuk setiap jenis kesalahan | Tidak | SageMaker HyperPod operator pelatihan |
training_time_ms |
Total waktu dalam milidetik yang dihabiskan dalam pelatihan aktual | Tidak | SageMaker HyperPod operator pelatihan |
Metrik inferensi
Gunakan metrik ini untuk melacak kinerja tugas inferensi di cluster. SageMaker HyperPod
Untuk Nama Metrik, ketik . | Deskripsi | Diaktifkan secara default | Sumber metrik |
---|---|---|---|
model_invocations_total |
Total jumlah permintaan pemanggilan ke model | Ya | SageMaker HyperPod operator inferensi |
model_errors_total |
Jumlah total kesalahan selama pemanggilan model | Ya | SageMaker HyperPod operator inferensi |
model_concurrent_requests |
Permintaan model bersamaan aktif | Ya | SageMaker HyperPod operator inferensi |
model_latency_milliseconds |
Latensi pemanggilan model dalam milidetik | Ya | SageMaker HyperPod operator inferensi |
model_ttfb_milliseconds |
Waktu modelkan ke latensi byte pertama dalam milidetik | Ya | SageMaker HyperPod operator inferensi |
TGI | Metrik ini dapat digunakan untuk memantau performa TGI, penerapan skala otomatis, dan membantu mengidentifikasi kemacetan. Untuk daftar rinci metrik, lihat https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README |
Ya | Wadah model |
LMI | Metrik ini dapat digunakan untuk memantau performa LMI, dan membantu mengidentifikasi kemacetan. Untuk daftar rinci metrik, lihat https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README |
Ya | Wadah model |
Metrik tata kelola tugas
Gunakan metrik ini untuk memantau tata kelola tugas dan alokasi sumber daya di klaster. SageMaker HyperPod
Untuk Nama Metrik, ketik . | Deskripsi | Diaktifkan secara default | Sumber metrik |
---|---|---|---|
Kueue | Lihat https://kueue.sigs.k8s. io/docs/reference/metrics |
Tidak | Kueue |
Metrik penskalaan
Gunakan metrik ini untuk memantau perilaku dan kinerja auto-scaling di klaster. SageMaker HyperPod
Untuk Nama Metrik, ketik . | Deskripsi | Diaktifkan secara default | Sumber metrik |
---|---|---|---|
Metrik Operator KEDA | Lihat https://keda. sh/docs/2.17/integrations/prometheus/#operator |
Tidak | Kubernetes Event Driven Autoscaler (KEDA) |
Metrik Webhook KEDA | Lihat https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhook |
Tidak | Kubernetes Event Driven Autoscaler (KEDA) |
Metrik server | Lihat https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server |
Tidak | Kubernetes Event Driven Autoscaler (KEDA) |
Metrik klaster
Gunakan metrik ini untuk memantau kesehatan klaster secara keseluruhan dan alokasi sumber daya.
Untuk Nama Metrik, ketik . | Deskripsi | Diaktifkan secara default | Sumber metrik |
---|---|---|---|
Kondisi klaster | Metrik server API Kubernetes. Lihat https://kubernetes. io/docs/reference/instrumentation/metrics |
Ya | Kubernetes |
Kubestate | Lihat https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources |
Terbatas. | Kubernetes |
Lanjutan | Lihat https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources |
Tidak | Kubernetes |
Metrik instans
Gunakan metrik ini untuk memantau kinerja dan kesehatan instans individu.
Untuk Nama Metrik, ketik . | Deskripsi | Diaktifkan secara default | Sumber metrik |
---|---|---|---|
Metrik Simpul | Lihat https://github.com/prometheus/node_exporter? tab = readme-ov-file # enabled-by-default |
Ya | Kubernetes |
Metrik Kontainer | Metrik kontainer diekspos oleh Cadvisor. Lihat https://github.com/google/cadvisor |
Ya | Kubernetes |
Metrik komputasi yang dipercepat
Gunakan metrik ini untuk memantau kinerja, kesehatan, dan pemanfaatan perangkat komputasi yang dipercepat individual di cluster Anda.
Untuk Nama Metrik, ketik . | Deskripsi | Diaktifkan secara default | Sumber metrik |
---|---|---|---|
GPU | Metrik DCGM. Lihat https://github.com/NVIDIA/dcgm- exporter/blob/main/etc/dcp -metrics-included.csv |
Terbatas. |
Manajer GPU Pusat Data NVIDIA (DCGM) |
GPU NVIDIA (lanjutan) |
Metrik DCGM yang dikomentari dalam file CSV berikut: https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp |
Tidak |
Manajer GPU Pusat Data NVIDIA (DCGM) |
AWS Trainium | Metrik neuron. Lihat https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html# neuron-monitor-nc-counters |
Tidak | AWS Monitor Neuron |
Lalu lintas jaringan
Gunakan metrik ini untuk memantau kinerja dan kesehatan Adaptor Kain Elastis (EFA) di klaster Anda.
Untuk Nama Metrik, ketik . | Deskripsi | Diaktifkan secara default | Sumber metrik |
---|---|---|---|
EFA | Lihat https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md |
Tidak | Elastic Fabric Adapter |
Lalu lintas sistem file
Untuk Nama Metrik, ketik . | Deskripsi | Diaktifkan secara default | Sumber metrik |
---|---|---|---|
Sistem file | Metrik Amazon FSx untuk Lustre dari Amazon: CloudWatch Pemantauan dengan Amazon |
Ya | Amazon FSx untuk Lustre |