Memecahkan masalah dalam cluster dengan integrasi AWS Batch - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memecahkan masalah dalam cluster dengan integrasi AWS Batch

Bagian ini relevan dengan cluster dengan integrasi AWS Batch scheduler.

Masalah simpul kepala

Anda dapat memecahkan masalah penyiapan node kepala dengan cara yang sama seperti Slurm cluster (kecuali untuk log Slurm tertentu). Untuk informasi lebih lanjut tentang masalah ini, lihatNode kepala.

Masalah komputasi

AWS Batch mengelola aspek penskalaan dan komputasi layanan Anda. Jika Anda mengalami masalah terkait komputasi, lihat dokumentasi AWS Batch pemecahan masalah untuk mendapatkan bantuan.

Kegagalan Job

Jika pekerjaan gagal, Anda dapat menjalankan awsbout perintah untuk mengambil output pekerjaan. Anda juga dapat menjalankan awsbstat perintah untuk mendapatkan tautan ke log pekerjaan yang disimpan oleh Amazon CloudWatch.

Connect timeout pada kesalahan URL endpoint

Jika pekerjaan paralel multi-node gagal dengan kesalahan:: Connect timeout on endpoint URL

  • Di log awsbout keluaran, periksa apakah pekerjaannya paralel multi-node dari output: Detected 3/3 compute nodes. Waiting for all compute nodes to start.

  • Verifikasi apakah subnet node komputasi bersifat publik.

Pekerjaan paralel multi-node tidak mendukung penggunaan subnet publik saat menggunakan AWS Batch in. AWS ParallelCluster Gunakan subnet pribadi untuk node komputasi dan pekerjaan Anda. Untuk informasi selengkapnya, lihat Menghitung pertimbangan lingkungan di AWS Batch Panduan Pengguna. Untuk mengonfigurasi subnet pribadi untuk node komputasi Anda, lihat. AWS ParallelCluster dengan AWS Batch penjadwal