Melihat kesalahan dalam inisialisasi node komputasi - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Melihat kesalahan dalam inisialisasi node komputasi

Melihat Node bootstrap error di clustermgtd.log

Masalahnya terkait dengan node komputasi yang gagal bootstrap. Untuk informasi tentang cara men-debug masalah mode yang dilindungi klaster, lihatCara men-debug mode terlindungi.

Saya mengonfigurasi reservasi kapasitas permintaan (ODCR) atau Instans Cadangan zona

ODCR yang menyertakan instance yang memiliki beberapa antarmuka jaringan, seperti P4d, P4de, dan Trainium (Trn) AWS

Dalam file konfigurasi cluster, periksa apakah HeadNode ada di subnet publik dan node komputasi berada dalam subnet pribadi.

ODCR ditargetkan ODCRS

Melihat Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. meskipun saya sudah memiliki /opt/slurm/etc/pcluster/run_instances_overrides.json tempat dengan mengikuti instruksi yang diberikan di Meluncurkan instans dengan OCR (Cadangan Kapasitas Sesuai Permintaan)

Jika Anda menggunakan AWS ParallelCluster versi 3.1.1 hingga 3.2.1 dengan ODCR yang ditargetkan, dan Anda juga menggunakan instance run override file JSON, mungkin saja Anda tidak memiliki file JSON yang diformat dengan benar. Anda bisa melihat kesalahan diclustermgtd.log, seperti berikut ini:

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.

Validasi bahwa format file JSON sudah benar dengan menjalankan yang berikut ini:

$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq

Melihat Found RunInstances parameters override.clustermgtd.log kapan pembuatan klaster gagal, atau slurm_resume.log saat menjalankan pekerjaan gagal

Jika Anda menggunakan instance run override file JSON, periksa apakah Anda benar mengatur nama antrian dan nama sumber daya komputasi dalam file. /opt/slurm/etc/pcluster/run_instances_overrides.json

Melihat An error occurred (InsufficientInstanceCapacity)slurm_resume.log ketika saya gagal menjalankan pekerjaan, atau clustermgtd.log ketika saya gagal membuat cluster

Menggunakan PG-ODCR (Placement Group ODCR)

Saat membuat ODCR dengan grup penempatan terkait, nama grup penempatan yang sama harus digunakan dalam file konfigurasi. Tetapkan nama grup penempatan yang sesuai dalam konfigurasi cluster.

Menggunakan Instans Cadangan Zonal

Jika Anda menggunakan Instans Cadangan zona denganPlacementGroup/Enabledto true dalam konfigurasi cluster, Anda mungkin melihat kesalahan, seperti berikut ini:

We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.

Anda mungkin melihat ini karena Instans Cadangan zona tidak ditempatkan di UC (atau tulang belakang) yang sama, yang dapat menyebabkan kesalahan kapasitas (ICE) tidak mencukupi saat menggunakan grup penempatan. Anda dapat memeriksa kasus ini dengan menonaktifkan pengaturan PlacementGroup Grup dalam konfigurasi cluster untuk menentukan apakah cluster dapat mengalokasikan instance.

Melihat An error occurred (VcpuLimitExceeded)slurm_resume.log ketika saya gagal menjalankan pekerjaan, atau masukclustermgtd.log, ketika saya gagal membuat cluster

Periksa batas vCPU pada akun Anda untuk jenis instans EC2 tertentu yang Anda gunakan. Jika Anda melihat nol atau lebih sedikit vCPU daripada yang Anda minta, mintalah peningkatan batas Anda. Untuk informasi tentang cara melihat batas saat ini dan meminta batas baru, lihat kuota layanan Amazon EC2 di Panduan Pengguna Amazon EC2.

Melihat An error occurred (InsufficientInstanceCapacity)slurm_resume.log ketika saya gagal menjalankan pekerjaan, atau masukclustermgtd.log, ketika saya gagal membuat cluster

Anda mengalami masalah kapasitas yang tidak mencukupi. Ikuti https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/ untuk memecahkan masalah.

Melihat node dalam DOWN keadaan dengan Reason (Code:InsufficientInstanceCapacity)...

Anda mengalami masalah kapasitas yang tidak mencukupi. Ikuti https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/ untuk memecahkan masalah. Untuk informasi selengkapnya AWS ParallelCluster tentang mode fail-over kapasitas cepat tidak mencukupi, lihat. Slurmcluster cepat kapasitas tidak mencukupi fail-over

Melihat cannot change locale (en_US.utf-8) because it has an invalid name di slurm_resume.log

Hal ini dapat terjadi jika Anda memiliki proses yum instalasi yang gagal yang meninggalkan pengaturan lokal dalam keadaan tidak konsisten. Misalnya, ini dapat disebabkan ketika pengguna menghentikan proses penginstalan.

Untuk memverifikasi penyebabnya, lakukan tindakan berikut:
  • Jalankan su - pcluster-admin.

    Shell menunjukkan kesalahan, seperti,cannot change locale...no such file or directory.

  • Jalankan localedef --list.

    Mengembalikan daftar kosong atau tidak berisi lokal default.

  • Periksa yum perintah terakhir dengan yum history danyum history info #ID. Apakah ID terakhir memilikiReturn-Code: Success?

    Jika ID terakhir tidak memilikiReturn-Code: Success, skrip pasca-instal mungkin tidak berhasil berjalan.

Untuk memperbaiki masalah, coba bangun kembali lokal dengan. yum reinstall glibc-all-langpacks Setelah pembangunan kembali, su - pcluster-admin tidak akan menampilkan kesalahan atau peringatan jika masalah telah diperbaiki.

Tak satu pun dari skenario sebelumnya berlaku untuk situasi saya

Untuk memecahkan masalah inisialisasi node komputasi, lihat. Memecahkan masalah inisialisasi node

Periksa untuk melihat apakah skenario Anda tercakup dalam Masalah GitHub yang Diketahui di AWS ParallelCluster on GitHub.

Untuk dukungan tambahan, lihatDukungan tambahan.