Melihat grafik Kesalahan Penyediaan Instance Melihat grafik Kesalahan Instance Tidak Sehat Melihat grafik Compute Fleet Idle Time

Memecahkan masalah metrik kesehatan klaster

Metrik kesehatan cluster ditambahkan ke CloudWatch dasbor AWS ParallelCluster Amazon dimulai dengan AWS ParallelCluster versi 3.6.0. Di bagian berikut, Anda dapat mempelajari metrik kesehatan dasbor, dan tindakan yang dapat Anda lakukan untuk memecahkan masalah dan menyelesaikan masalah.

Topik

Melihat grafik Kesalahan Penyediaan Instance
Melihat grafik Kesalahan Instance Tidak Sehat
Melihat grafik Compute Fleet Idle Time

Melihat grafik Kesalahan Penyediaan Instance

Jika Anda melihat nilai bukan nol dalam Instance Provisioning Errors grafik, maka itu berarti EC2 instans Amazon untuk mendukung node slurm gagal diluncurkan di API atau. CreateFleet RunInstance

Melihat `IAMPolicyErrors`

Apa yang terjadi?

Sejumlah instance gagal diluncurkan, yang disebabkan oleh izin yang tidak memadai dengan kode kesalahan. UnauthorizedOperation
Bagaimana cara mengatasinya?

Jika Anda telah mengonfigurasi kustom InstanceRoleatau InstanceProfile, periksa kebijakan IAM Anda dan verifikasi bahwa Anda menggunakan kredenal yang benar.

Periksa clustermgtd file untuk rincian kesalahan node statis. Periksa slurm_resume.log file untuk rincian kesalahan node dinamis. Gunakan detail untuk mempelajari lebih lanjut tentang izin yang hilang yang harus ditambahkan.

Melihat `VcpuLimitErrors`

Apa yang terjadi?

AWS ParallelCluster gagal meluncurkan instance karena mencapai batas vCPU untuk jenis instans EC2 Amazon tertentu yang dikonfigurasi untuk node komputasi cluster. Akun AWS
Bagaimana cara mengatasinya?

Periksa VcpuLimitExceeded kesalahan dalam clustermgtd file untuk node statis, dan periksa slurm_resume.log file untuk node dinamis untuk mendapatkan detail tambahan. Untuk mengatasi masalah ini, Anda dapat meminta peningkatan batas vCPU Anda. Untuk informasi selengkapnya tentang cara melihat batas saat ini dan meminta batas baru, lihat kuota layanan Amazon Elastic Compute Cloud di Panduan Pengguna Amazon Elastic Compute Cloud untuk Instans Linux.

Melihat `VolumeLimitErrors`

Apa yang terjadi?

Anda telah mencapai batas volume Amazon EBS pada Anda Akun AWS, dan AWS ParallelCluster tidak dapat meluncurkan instance dengan kode InsufficientVolumeCapacity kesalahan atau. VolumeLimitExceeded
Bagaimana cara mengatasinya?

Periksa clustermgtd file untuk node statis, dan periksa slurm_resume.log file untuk node dinamis untuk mendapatkan detail batas volume tambahan. Untuk mengatasi masalah ini, Anda dapat menggunakan yang berbeda Wilayah AWS, membersihkan volume yang ada, atau menghubungi Pusat AWS Dukungan untuk mengirimkan permintaan guna meningkatkan batas volume Amazon EBS Anda.

Melihat `InsufficientCapacityErrors`

Apa yang terjadi?

AWS ParallelCluster tidak memiliki kapasitas yang cukup untuk meluncurkan EC2 instans Amazon ke node belakang.
Bagaimana cara mengatasinya?

Periksa clustermgtd file untuk node statis, dan periksa slurm_resume.log file untuk node dinamis untuk mendapatkan detail kesalahan kapasitas yang tidak mencukupi. Untuk memecahkan masalah ini, ikuti panduan di https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -/. insufficient-capacity-errors

`OtherInstanceLaunchFailures`

Apa yang terjadi?

EC2 Instance Amazon untuk mendukung node komputasi gagal diluncurkan dengan API CreateFleet atauRunInstance.
Bagaimana cara mengatasinya?

Periksa clustermgtd file untuk node statis, dan periksa slurm_resume.log file untuk node dinamis untuk mendapatkan detail kesalahan.

Melihat grafik Kesalahan Instance Tidak Sehat

Apa yang terjadi?

Sejumlah instance komputasi diluncurkan tetapi kemudian dihentikan karena tidak sehat.
Bagaimana cara mengatasinya?

Untuk informasi selengkapnya tentang pemecahan masalah node yang tidak sehat, lihat. Memecahkan masalah penggantian dan penghentian node yang tidak terduga

Melihat `InstanceBootstrapTimeoutError`

Apa yang terjadi?

Sebuah instance tidak dapat bergabung dengan cluster di dalam resume_timeout (untuk node dinamis) atau node_replacement_timeout (untuk node statis). Hal ini dapat terjadi jika jaringan tidak dikonfigurasi dengan benar untuk node komputasi, atau dapat terjadi jika skrip kustom yang berjalan pada node komputasi membutuhkan waktu terlalu lama untuk diselesaikan.
Bagaimana cara mengatasinya?

Untuk node dinamis, periksa clustermgtd log (/var/log/parallelcluster/clustermgtd) untuk alamat IP node komputasi dan kesalahan seperti berikut ini:
```
Node bootstrap error: Resume timeout expires for node
```
Untuk node statis, periksa clustermgtd log (/var/log/parallelcluster/clustermgtd) untuk alamat IP node komputasi dan kesalahan seperti berikut:
```
Node bootstrap error: Replacement timeout expires for node ... in replacement.
```
Untuk detail tambahan, periksa /var/log/cloud-init-output.log file untuk kesalahan. Anda dapat mengambil alamat IP node komputasi bermasalah dari file clustermgtd dan slurm_resume log.

Melihat `EC2HealthCheckErrors`

Apa yang terjadi?

Sebuah instance gagal dalam pemeriksaan EC2 kesehatan Amazon.
Bagaimana cara mengatasinya?

Untuk informasi tentang cara memecahkan masalah ini, lihat Memecahkan masalah instance dengan pemeriksaan status gagal.

Melihat `ScheduledEventHealthCheckErrors`

Apa yang terjadi?

Sebuah instance gagal dalam pemeriksaan kesehatan acara EC2 terjadwal Amazon, dan itu tidak sehat.
Bagaimana cara mengatasinya?

Untuk informasi tentang cara memecahkan masalah ini, lihat Acara terjadwal untuk instans Anda.

Melihat `NoCorrespondingInstanceErrors`

Apa yang terjadi?

AWS ParallelCluster tidak dapat menemukan instance yang mendukung node. Node kemungkinan telah dihentikan sendiri selama operasi bootstrap. SlurmQueues/CustomActions/OnNodeStart| OnNodeConfiguredskrip, atau kesalahan jaringan dapat menghasilkanNoCorrespondingInstanceErrors.
Bagaimana cara mengatasinya?

Untuk detail tambahan, periksa /var/log/cloud-init-output.log node komputasi.

Melihat grafik Compute Fleet Idle Time

Melihat `MaxDynamicNodeIdleTime` yang secara signifikan lebih lama dari ambang Idle Time Scaledown

Apa yang terjadi?

Instance Anda tidak berakhir dengan benar. MaxDynamicNodeIdleTimemenunjukkan waktu maksimum dalam hitungan detik bahwa node dinamis, yang didukung oleh EC2 instance Amazon, tidak berfungsi. Ambang batas Idle Time Scaledown berasal dari parameter konfigurasi cluster. ScaledownIdletime Ketika node komputasi telah menganggur selama lebih dari detik Idle Time Scaledown, Slurm mematikan node dan AWS ParallelCluster mengakhiri instance dukungan. Dalam hal ini, ada sesuatu yang mencegah penghentian instance.
Bagaimana cara mengatasinya?

Untuk informasi lebih lanjut tentang masalah ini, lihat Mengganti, mengakhiri, atau mematikan instance dan node yang bermasalah diMemecahkan masalah penskalaan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Tak satu pun dari skenario sebelumnya berlaku untuk situasi saya

Memecahkan masalah penerapan klaster

Memecahkan masalah metrik kesehatan klaster

Topik

Melihat grafik Kesalahan Penyediaan Instance

Melihat IAMPolicyErrors

Melihat VcpuLimitErrors

Melihat VolumeLimitErrors

Melihat InsufficientCapacityErrors

OtherInstanceLaunchFailures