Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Memecahkan masalah metrik kesehatan klaster

Mode fokus
Memecahkan masalah metrik kesehatan klaster - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Metrik kesehatan cluster ditambahkan ke CloudWatch dasbor AWS ParallelCluster Amazon dimulai dengan AWS ParallelCluster versi 3.6.0. Di bagian berikut, Anda dapat mempelajari metrik kesehatan dasbor, dan tindakan yang dapat Anda lakukan untuk memecahkan masalah dan menyelesaikan masalah.

Melihat grafik Kesalahan Penyediaan Instance

Jika Anda melihat nilai bukan nol dalam Instance Provisioning Errors grafik, maka itu berarti EC2 instans Amazon untuk mendukung node slurm gagal diluncurkan di API atau. CreateFleet RunInstance

Melihat IAMPolicyErrors

  • Apa yang terjadi?

    Sejumlah instance gagal diluncurkan, yang disebabkan oleh izin yang tidak memadai dengan kode kesalahan. UnauthorizedOperation

  • Bagaimana cara mengatasinya?

    Jika Anda memiliki kustom yang dikonfigurasi InstanceRoleatau InstanceProfile, periksa kebijakan IAM Anda dan verifikasi bahwa Anda menggunakan kredenal yang benar.

    Periksa clustermgtd file untuk rincian kesalahan node statis. Periksa slurm_resume.log file untuk rincian kesalahan node dinamis. Gunakan detail untuk mempelajari lebih lanjut tentang izin yang hilang yang harus ditambahkan.

Melihat VcpuLimitErrors

  • Apa yang terjadi?

    AWS ParallelCluster gagal meluncurkan instance karena mencapai batas vCPU untuk jenis instans EC2 Amazon tertentu yang dikonfigurasi untuk node komputasi cluster. Akun AWS

  • Bagaimana cara mengatasinya?

    Periksa VcpuLimitExceeded kesalahan dalam clustermgtd file untuk node statis, dan periksa slurm_resume.log file untuk node dinamis untuk mendapatkan detail tambahan. Untuk mengatasi masalah ini, Anda dapat meminta peningkatan batas vCPU Anda. Untuk informasi selengkapnya tentang cara melihat batas saat ini dan meminta batas baru, lihat kuota layanan Amazon Elastic Compute Cloud di Panduan Pengguna Amazon Elastic Compute Cloud untuk Instans Linux.

Melihat VolumeLimitErrors

  • Apa yang terjadi?

    Anda telah mencapai batas volume Amazon EBS pada Anda Akun AWS, dan AWS ParallelCluster tidak dapat meluncurkan instance dengan kode InsufficientVolumeCapacity kesalahan atau. VolumeLimitExceeded

  • Bagaimana cara mengatasinya?

    Periksa clustermgtd file untuk node statis, dan periksa slurm_resume.log file untuk node dinamis untuk mendapatkan detail batas volume tambahan. Untuk mengatasi masalah ini, Anda dapat menggunakan volume yang berbeda Wilayah AWS dan membersihkan volume yang ada, atau menghubungi Pusat AWS Dukungan untuk mengirimkan permintaan guna meningkatkan batas volume Amazon EBS Anda.

Melihat InsufficientCapacityErrors

  • Apa yang terjadi?

    AWS ParallelCluster tidak memiliki kapasitas yang cukup untuk meluncurkan EC2 instans Amazon ke node belakang.

  • Bagaimana cara mengatasinya?

    Periksa clustermgtd file untuk node statis, dan periksa slurm_resume.log file untuk node dinamis untuk mendapatkan detail kesalahan kapasitas yang tidak mencukupi. Untuk memecahkan masalah ini, ikuti panduan di https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -/. insufficient-capacity-errors

OtherInstanceLaunchFailures

  • Apa yang terjadi?

    EC2 Instance Amazon untuk mendukung node komputasi gagal diluncurkan dengan API CreateFleet atauRunInstance.

  • Bagaimana cara mengatasinya?

    Periksa clustermgtd file untuk node statis, dan periksa slurm_resume.log file untuk node dinamis untuk mendapatkan detail kesalahan.

Melihat grafik Kesalahan Instance Tidak Sehat

Melihat InstanceBootstrapTimeoutError

  • Apa yang terjadi?

    Sebuah instance tidak dapat bergabung dengan cluster di dalam resume_timeout (untuk node dinamis) atau node_replacement_timeout (untuk node statis). Hal ini dapat terjadi jika jaringan tidak dikonfigurasi dengan benar untuk node komputasi, atau dapat terjadi jika skrip kustom yang berjalan pada node komputasi membutuhkan waktu terlalu lama untuk diselesaikan.

  • Bagaimana cara mengatasinya?

    Untuk node dinamis, periksa clustermgtd log (/var/log/parallelcluster/clustermgtd) untuk alamat IP node komputasi dan kesalahan seperti berikut ini:

    Node bootstrap error: Resume timeout expires for node

    Untuk node statis, periksa clustermgtd log (/var/log/parallelcluster/clustermgtd) untuk alamat IP node komputasi dan kesalahan seperti berikut ini:

    Node bootstrap error: Replacement timeout expires for node ... in replacement.

    Untuk detail tambahan, periksa /var/log/cloud-init-output.log file untuk kesalahan. Anda dapat mengambil alamat IP node komputasi bermasalah dari file clustermgtd dan slurm_resume log.

Melihat EC2HealthCheckErrors

  • Apa yang terjadi?

    Sebuah instance gagal dalam pemeriksaan EC2 kesehatan Amazon.

  • Bagaimana cara mengatasinya?

    Untuk selengkapnya tentang cara memecahkan masalah ini, lihat Memecahkan masalah instance dengan pemeriksaan status gagal.

Melihat ScheduledEventHealthCheckErrors

  • Apa yang terjadi?

    Sebuah instance gagal dalam pemeriksaan kesehatan acara EC2 terjadwal Amazon, dan itu tidak sehat.

  • Bagaimana cara mengatasinya?

    Untuk informasi tentang cara memecahkan masalah ini, lihat Acara terjadwal untuk instans Anda.

Melihat NoCorrespondingInstanceErrors

  • Apa yang terjadi?

    AWS ParallelCluster tidak dapat menemukan instance yang mendukung node. Node kemungkinan telah dihentikan sendiri selama operasi bootstrap. SlurmQueues/CustomActions/OnNodeStart| OnNodeConfiguredskrip, atau kesalahan jaringan dapat menghasilkanNoCorrespondingInstanceErrors.

  • Bagaimana cara mengatasinya?

    Untuk detail tambahan, periksa /var/log/cloud-init-output.log node komputasi.

Melihat grafik Compute Fleet Idle Time

Melihat MaxDynamicNodeIdleTime yang secara signifikan lebih lama dari ambang Idle Time Scaledown

  • Apa yang terjadi?

    Instance Anda tidak berakhir dengan benar. MaxDynamicNodeIdleTimemenunjukkan waktu maksimum dalam hitungan detik bahwa node dinamis, yang didukung oleh EC2 instance Amazon, tidak berfungsi. Ambang batas Idle Time Scaledown berasal dari parameter konfigurasi cluster. ScaledownIdletime Ketika node komputasi telah menganggur selama lebih dari detik Idle Time Scaledown, Slurm mematikan node dan AWS ParallelCluster mengakhiri instance dukungan. Dalam hal ini, ada sesuatu yang mencegah penghentian instance.

  • Bagaimana cara mengatasinya?

    Untuk informasi lebih lanjut tentang masalah ini, lihat Mengganti, mengakhiri, atau mematikan instance dan node yang bermasalah diMemecahkan masalah penskalaan.

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.