Berkeja dengan Instans Spot - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Berkeja dengan Instans Spot

AWS ParallelCluster menggunakan Instans Spot jika Anda telah menyetel SlurmQueuesAwsBatchQueues/CapacityTypeatau/CapacityTypeke SPOT dalam file konfigurasi cluster. Instans Spot lebih hemat biaya daripada Instans Sesuai Permintaan, tetapi mungkin akan terganggu. Mungkin bermanfaat untuk memanfaatkan pemberitahuan gangguan Instans Spot, yang memberikan peringatan dua menit sebelum Amazon EC2 harus menghentikan atau menghentikan Instans Spot Anda. Untuk informasi selengkapnya, lihat Interupsi Instans Spot di Panduan Pengguna Amazon EC2. Untuk mempelajari cara AwsBatchQueuesbekerja dengan Instans Spot, lihat Menghitung Sumber Daya di AWS Batch Panduan Pengguna.

Penjadwal yang AWS ParallelCluster dikonfigurasi menetapkan pekerjaan untuk menghitung sumber daya dalam antrian dengan instance spot dengan cara yang sama seperti menetapkan pekerjaan untuk menghitung sumber daya dalam antrian dengan instance sesuai permintaan.

Saat menggunakan Instans Spot, peran AWSServiceRoleForEC2Spot terkait layanan harus ada di akun Anda. Untuk membuat peran ini di akun Anda menggunakan AWS CLI, jalankan perintah berikut:

$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

Untuk informasi selengkapnya, lihat Peran terkait layanan untuk permintaan Instans Spot di Panduan Pengguna Amazon EC2.

Bagian berikut menjelaskan tiga skenario di mana Instans Spot dapat terputus saat menggunakan. SlurmQueues

Skenario 1: Instans Spot tanpa pekerjaan yang berjalan terganggu

Ketika interupsi ini terjadi, AWS ParallelCluster coba ganti instance jika antrian penjadwal memiliki pekerjaan yang tertunda yang memerlukan instance tambahan, atau jika jumlah instance aktif lebih rendah dari//. SlurmQueuesComputeResourcesMinCount Jika tidak AWS ParallelCluster dapat menyediakan instance baru, maka permintaan untuk instance baru diulang secara berkala.

Skenario 2: Instance Spot yang menjalankan pekerjaan node tunggal terganggu

Pekerjaan gagal dengan kode negara bagianNODE_FAIL, dan pekerjaan tersebut diminta kembali (kecuali --no-requeue ditentukan saat pekerjaan diserahkan). Jika node adalah node statis, itu diganti. Jika node adalah node dinamis, node dihentikan dan diatur ulang. Untuk informasi selengkapnya tentangsbatch, termasuk --no-requeue parameter, lihat sbatchdi dokumentasi Slurm.

Skenario 3: Instans Spot yang menjalankan pekerjaan multi-node terganggu

Pekerjaan gagal dengan kode negara bagianNODE_FAIL, dan pekerjaan tersebut diminta kembali (kecuali --no-requeue ditentukan saat pekerjaan diajukan). Jika node adalah node statis, itu diganti. Jika node adalah node dinamis, node dihentikan dan diatur ulang. Node lain yang menjalankan pekerjaan yang dihentikan mungkin dialokasikan ke pekerjaan tertunda lainnya, atau diperkecil setelah ScaledownIdletimewaktu SlurmSettings/yang dikonfigurasi telah berlalu.

Untuk informasi selengkapnya tentang Instans Spot, lihat Instans Spot di Panduan Pengguna Amazon EC2.