Mencoba membuat cluster - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mencoba membuat cluster

Saat menggunakan AWS ParallelCluster versi 3.5.0 dan yang lebih baru untuk membuat cluster, dan pembuatan cluster gagal dengan --rollback-on-failure set tofalse, gunakan perintah pcluster describe-cluster CLI untuk mendapatkan informasi status dan kegagalan. Dalam hal ini, pcluster describe-cluster output clusterStatus yang diharapkan adalahCREATE_FAILED. Periksa failures bagian dalam output untuk menemukan failureCode danfailureReason. Kemudian, di bagian berikut, temukan pencocokan failureCode untuk bantuan pemecahan masalah tambahan. Untuk informasi selengkapnya, lihat pcluster describe-cluster.

Di bagian berikut, kami sarankan Anda memeriksa log pada node kepala, seperti /var/log/chef-client.log file /var/log/cfn-init.log dan. Untuk informasi selengkapnya tentang AWS ParallelCluster log dan cara melihatnya, lihat Log kunci untuk debugging danMengambil dan melestarikan log.

Jika Anda tidak memilikifailureCode, navigasikan ke AWS CloudFormation konsol untuk melihat tumpukan cluster. Periksa Status Reason untuk HeadNodeWaitCondition atau kegagalan pada sumber daya lain untuk menemukan rincian kegagalan tambahan. Untuk informasi selengkapnya, lihat Lihat AWS CloudFormation acara di CREATE_FAILED. Periksa /var/log/chef-client.log file /var/log/cfn-init.log dan pada node kepala.

failureCodeadalah OnNodeConfiguredExecutionFailure

  • Mengapa gagal?

    Anda menyediakan skrip kustom di OnNodeConfigured bagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal dijalankan.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/cfn-init.log file untuk mempelajari lebih lanjut tentang kegagalan dan cara memperbaiki masalah dalam skrip kustom Anda. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan OnNodeConfigured skrip setelah Running command runpostinstall pesan.

failureCodeadalah OnNodeConfiguredDownloadFailure

  • Mengapa gagal?

    Anda menyediakan skrip kustom di OnNodeConfigured bagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal diunduh.

  • Bagaimana cara mengatasinya?

    Pastikan URL valid dan akses dikonfigurasi dengan benar. Untuk informasi lebih lanjut tentang konfigurasi skrip bootstrap kustom, lihatTindakan bootstrap kustom.

    Periksa /var/log/cfn-init.log file. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesan OnNodeConfigured skrip, termasuk mengunduh, setelah Running command runpostinstall pesan.

failureCodeadalah OnNodeConfiguredFailure

  • Mengapa gagal?

    Anda menyediakan skrip kustom di OnNodeConfigured bagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, penggunaan skrip khusus gagal dalam penerapan cluster. Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/cfn-init.log file. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesan OnNodeConfigured skrip setelah Running command runpostinstall pesan.

failureCodeadalah OnNodeStartExecutionFailure

  • Mengapa gagal?

    Anda menyediakan skrip kustom di OnNodeStart bagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal dijalankan.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/cfn-init.log file untuk mempelajari lebih lanjut tentang kegagalan dan cara memperbaiki masalah dalam skrip kustom Anda. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan OnNodeStart skrip setelah Running command runpreinstall pesan.

failureCodeadalah OnNodeStartDownloadFailure

  • Mengapa gagal?

    Anda menyediakan skrip kustom di OnNodeStart bagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal diunduh.

  • Bagaimana cara mengatasinya?

    Pastikan URL valid dan akses dikonfigurasi dengan benar. Untuk informasi lebih lanjut tentang konfigurasi skrip bootstrap kustom, lihatTindakan bootstrap kustom.

    Periksa /var/log/cfn-init.log file. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesan OnNodeStart skrip, termasuk mengunduh, setelah Running command runpreinstall pesan.

failureCodeadalah OnNodeStartFailure

  • Mengapa gagal?

    Anda menyediakan skrip kustom di OnNodeStart bagian node kepala dalam konfigurasi untuk membuat cluster. Namun, penggunaan skrip khusus gagal dalam penerapan cluster. Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/cfn-init.log file. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesan OnNodeStart skrip setelah Running command runpreinstall pesan.

failureCodeadalah EbsMountFailure

  • Mengapa gagal?

    Volume EBS yang ditentukan dalam konfigurasi cluster gagal dipasang.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/chef-client.log file untuk rincian kegagalan.

failureCodeadalah EfsMountFailure

  • Mengapa gagal?

    Volume Amazon EFS yang ditentukan dalam konfigurasi cluster gagal dipasang.

  • Bagaimana cara mengatasinya?

    Jika Anda mendefinisikan sistem file Amazon EFS yang ada, pastikan lalu lintas diizinkan antara cluster dan sistem file. Untuk informasi lebih lanjut, lihat SharedStorage/EfsSettings/FileSystemId.

    Periksa /var/log/chef-client.log file untuk rincian kegagalan.

failureCodeadalah FsxMountFailure

  • Mengapa gagal?

    Sistem file Amazon FSx yang ditentukan dalam konfigurasi cluster gagal dipasang.

  • Bagaimana cara mengatasinya?

    Jika Anda mendefinisikan sistem file Amazon FSx yang ada, pastikan lalu lintas diizinkan antara cluster dan sistem file. Untuk informasi lebih lanjut, lihat SharedStorage/FsxLustreSettings/FileSystemId.

    Periksa /var/log/chef-client.log file untuk rincian kegagalan.

failureCodeadalah RaidMountFailure

  • Mengapa gagal?

    Volume RAID yang ditentukan dalam konfigurasi cluster gagal dipasang.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/chef-client.log file untuk rincian kegagalan.

failureCodeadalah AmiVersionMismatch

  • Mengapa gagal?

    AWS ParallelClusterVersi yang digunakan untuk membuat AMI kustom berbeda dari AWS ParallelCluster versi yang digunakan untuk mengkonfigurasi cluster. Di CloudFormation konsol, lihat detail CloudFormation tumpukan cluster dan periksa Status Reason HeadNodeWaitCondition untuk mendapatkan detail tambahan tentang AWS ParallelCluster versi dan AMI. Untuk informasi selengkapnya, lihat Lihat AWS CloudFormation acara di CREATE_FAILED.

  • Bagaimana cara mengatasinya?

    Pastikan AWS ParallelCluster versi yang digunakan untuk membuat AMI kustom adalah AWS ParallelCluster versi yang sama yang digunakan untuk mengkonfigurasi cluster. Anda dapat mengubah versi AMI kustom atau versi pcluster CLI untuk membuatnya sama.

failureCodeadalah InvalidAmi

  • Mengapa gagal?

    AMI kustom tidak valid karena tidak dibuat menggunakan. AWS ParallelCluster

  • Bagaimana cara mengatasinya?

    Gunakan pcluster build-image perintah untuk membuat AMI dengan menjadikan AMI Anda sebagai gambar induk. Untuk informasi selengkapnya, lihat pcluster build-image.

failureCodeadalah HeadNodeBootstrapFailure dengan failureReason Gagal mengatur simpul kepala.

  • Mengapa gagal?

    Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan. Misalnya, bisa jadi cluster dalam status dilindungi, dan ini bisa disebabkan oleh kegagalan untuk menyediakan armada komputasi statis.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/chef-client.log. file untuk rincian kegagalan.

    catatan

    Jika Anda melihat RuntimeError pengecualianCluster state has been set to PROTECTED mode due to failures detected in static node provisioning, klaster dalam status dilindungi. Untuk informasi selengkapnya, lihat Cara men-debug mode terlindungi.

failureCodeHeadNodeBootstrapFailuredengan waktu pembuatan failureReason Cluster habis.

  • Mengapa gagal?

    Secara default, ada batas waktu 30 menit untuk menyelesaikan pembuatan cluster. Jika pembuatan klaster belum selesai dalam jangka waktu ini, pembuatan klaster gagal dengan kesalahan batas waktu. Pembuatan cluster dapat batas waktu karena berbagai alasan. Misalnya, kegagalan batas waktu dapat disebabkan oleh kegagalan pembuatan node kepala, masalah jaringan, skrip khusus yang terlalu lama untuk dijalankan di node kepala, kesalahan dalam skrip khusus yang berjalan di node komputasi, atau waktu tunggu yang lama untuk penyediaan node komputasi. Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/chef-client.log file /var/log/cfn-init.log dan untuk rincian kegagalan. Untuk informasi lebih lanjut tentang AWS ParallelCluster log dan cara mendapatkannya, lihat Log kunci untuk debugging danMengambil dan melestarikan log.

    Anda mungkin menemukan yang berikut di log ini.

    • Melihat Waiting for static fleet capacity provisioning dekat akhir chef-client.log

      Ini menunjukkan bahwa waktu pembuatan cluster habis saat menunggu node statis dinyalakan. Untuk informasi selengkapnya, lihat Melihat kesalahan dalam inisialisasi node komputasi.

    • Melihat OnNodeConfigured atau skrip node OnNodeStart kepala belum selesai di akhir cfn-init.log

      Ini menunjukkan bahwa skrip OnNodeConfigured atau OnNodeStart kustom membutuhkan waktu lama untuk dijalankan dan menyebabkan kesalahan batas waktu. Periksa skrip kustom Anda untuk masalah yang mungkin menyebabkannya berjalan untuk waktu yang lama. Jika skrip kustom Anda memerlukan waktu yang lama untuk dijalankan, pertimbangkan untuk mengubah batas batas waktu dengan menambahkan DevSettings bagian ke file konfigurasi cluster Anda, seperti yang ditunjukkan pada contoh berikut:

      DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
    • Tidak dapat menemukan log, atau node kepala tidak berhasil dibuat

      Ada kemungkinan bahwa node kepala tidak berhasil dibuat dan log tidak dapat ditemukan. Di CloudFormation konsol, lihat detail tumpukan cluster untuk memeriksa detail kegagalan tambahan.

failureCodeHeadNodeBootstrapFailuredengan failureReason Gagal mem-bootstrap simpul kepala.

  • Mengapa gagal?

    Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.

  • Bagaimana cara mengatasinya?

    Periksa /var/log/chef-client.log file /var/log/cfn-init.log dan.

failureCodeadalah ResourceCreationFailure

  • Mengapa gagal?

    Penciptaan beberapa sumber daya gagal selama proses pembuatan cluster. Kegagalan dapat terjadi karena berbagai alasan. Misalnya, kegagalan pembuatan sumber daya dapat disebabkan oleh masalah kapasitas atau kebijakan IAM yang salah konfigurasi.

  • Bagaimana cara mengatasinya?

    Di CloudFormation konsol, lihat tumpukan cluster untuk memeriksa detail kegagalan pembuatan sumber daya tambahan.

failureCodeadalah ClusterCreationFailure

  • Mengapa gagal?

    Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.

  • Bagaimana cara mengatasinya?

    Di CloudFormation konsol, lihat tumpukan cluster dan periksa Status Reason HeadNodeWaitCondition untuk menemukan rincian kegagalan tambahan.

    Periksa /var/log/chef-client.log file /var/log/cfn-init.log dan.

Melihat WaitCondition timed out... di CloudFormation tumpukan

Untuk informasi selengkapnya, lihat failureCodeHeadNodeBootstrapFailuredengan waktu pembuatan failureReason Cluster habis..

Melihat Resource creation cancelled di CloudFormation tumpukan

Untuk informasi selengkapnya, lihat failureCodeadalah ResourceCreationFailure.

Melihat Failed to run cfn-init... atau kesalahan lain di AWS CloudFormation tumpukan

Periksa /var/log/cfn-init.log dan /var/log/chef-client.log untuk rincian kegagalan tambahan.

Melihat chef-client.log berakhir dengan INFO: Waiting for static fleet capacity provisioning

Ini terkait dengan batas waktu pembuatan cluster saat menunggu node statis dinyalakan. Untuk informasi selengkapnya, lihat Melihat kesalahan dalam inisialisasi node komputasi.

Melihat Failed to run preinstall or postinstall in cfn-init.log

Anda memiliki OnNodeStart skrip OnNodeConfigured atau di HeadNode bagian konfigurasi cluster. Script tidak berfungsi dengan benar. Periksa /var/log/cfn-init.log file untuk detail kesalahan skrip kustom.

Melihat This AMI was created with xxx, but is trying to be used with xxx... di CloudFormation tumpukan

Untuk informasi selengkapnya, lihat failureCodeadalah AmiVersionMismatch.

Melihat This AMI was not baked by AWS ParallelCluster... di CloudFormation tumpukan

Untuk informasi selengkapnya, lihat failureCodeadalah InvalidAmi.

Melihat pcluster create-cluster perintah gagal dijalankan secara lokal

Periksa ~/.parallelcluster/pcluster-cli.log di sistem file lokal Anda untuk rincian kegagalan.

Dukungan tambahan

Ikuti panduan pemecahan masalah di. Memecahkan masalah penerapan klaster

Periksa untuk melihat apakah skenario Anda tercakup dalam Masalah GitHub yang Diketahui di AWS ParallelCluster on GitHub.

Untuk dukungan tambahan, lihatDukungan tambahan.