Slurmakuntansi dengan AWS ParallelCluster - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Slurmakuntansi dengan AWS ParallelCluster

Dimulai dengan versi 3.3.0, AWS ParallelCluster mendukung Slurm akuntansi dengan parameter konfigurasi klaster SlurmSettings/Database.

Dengan Slurm akuntansi, Anda dapat mengintegrasikan database akuntansi eksternal untuk melakukan hal berikut:

  • Mengelola pengguna klaster atau grup pengguna dan entitas lainnya. Dengan kemampuan ini, Anda dapat menggunakan Slurm fitur-fitur yang lebih canggih, seperti penegakan batas sumber daya, fairshare, dan QOS.

  • Kumpulkan dan simpan data pekerjaan, seperti pengguna yang menjalankan pekerjaan, durasi pekerjaan, dan sumber daya yang digunakannya. Anda dapat melihat data yang disimpan dengan sacct utilitas.

catatan

AWS ParallelCluster mendukung Slurm akuntansi untuk server database MySQL yang Slurm didukung.

Bekerja dengan Slurm akuntansi di AWS ParallelCluster

Sebelum Anda mengkonfigurasi Slurm akuntansi, Anda harus memiliki server database eksternal yang ada dan database yang menggunakan mysql protokol.

Untuk mengonfigurasi Slurm akuntansi dengan AWS ParallelCluster, Anda harus menentukan yang berikut:

  • URI untuk server database eksternal di Database/Uri. Server harus ada dan dapat dijangkau dari node kepala.

  • Kredensyal untuk mengakses database eksternal yang didefinisikan dalam Database/PasswordSecretArndan Database/. UserName AWS ParallelCluster menggunakan informasi ini untuk mengkonfigurasi akuntansi di Slurm tingkat dan slurmdbd layanan pada node kepala. slurmdbdadalah daemon yang mengelola komunikasi antara cluster dan server database.

Untuk melangkah melalui tutorial, lihatMembuat cluster dengan Slurm akuntansi.

catatan

AWS ParallelCluster melakukan bootstrap dasar dari database Slurm akuntansi dengan mengatur pengguna cluster default sebagai admin database dalam Slurm database. AWS ParallelCluster tidak menambahkan pengguna lain ke database akuntansi. Pelanggan bertanggung jawab untuk mengelola entitas akuntansi dalam Slurm database.

AWS ParallelCluster mengkonfigurasi slurmdbduntuk memastikan bahwa sebuah cluster memiliki Slurm database sendiri di server database. Server database yang sama dapat digunakan di beberapa cluster, tetapi setiap cluster memiliki database tersendiri. AWS ParallelCluster menggunakan nama cluster untuk menentukan nama untuk database dalam StorageLocparameter file slurmdbd konfigurasi. Pertimbangkan situasi berikut. Database yang ada di server database menyertakan nama cluster yang tidak dipetakan ke nama cluster aktif. Dalam hal ini, Anda dapat membuat cluster baru dengan nama cluster tersebut untuk dipetakan ke database tersebut. Slurmmenggunakan kembali database untuk cluster baru.

Awas
  • Kami tidak menyarankan menyiapkan lebih dari satu cluster untuk menggunakan database yang sama sekaligus. Melakukannya dapat menyebabkan masalah kinerja atau bahkan situasi kebuntuan database.

  • Jika Slurm akuntansi diaktifkan pada node kepala cluster, sebaiknya gunakan tipe instance dengan CPU yang kuat, lebih banyak memori, dan bandwidth jaringan yang lebih tinggi. Slurmakuntansi dapat menambah ketegangan pada simpul kepala cluster.

Dalam arsitektur fitur AWS ParallelCluster Slurm akuntansi saat ini, setiap cluster memiliki instance slurmdbd daemon sendiri seperti yang ditunjukkan pada konfigurasi contoh diagram berikut.

A configuration with two clusters that are connected to a MySQL server. Each cluster has their own slurmdbd daemon instance. Moreover, each cluster is connected to its own database through the server. Another configuration with a single cluster that has its own slurmdbd daemon instance. This configuration is connected to a MySQL server and is also connected to its own database through the server.

Jika Anda menambahkan fungsionalitas Slurm multi-cluster atau federasi khusus ke lingkungan cluster Anda, semua cluster harus mereferensikan instance yang sama. slurmdbd Untuk alternatif ini, kami menyarankan Anda mengaktifkan AWS ParallelCluster Slurm akuntansi pada satu cluster dan secara manual mengkonfigurasi cluster lain untuk terhubung ke slurmdbd yang di-host pada cluster pertama.

Jika Anda menggunakan AWS ParallelCluster versi sebelum versi 3.3.0, lihat metode alternatif untuk menerapkan Slurm akuntansi yang dijelaskan dalam Posting Blog HPC ini.

Slurmpertimbangan akuntansi

Database dan cluster pada VPC yang berbeda

Untuk mengaktifkan Slurm akuntansi, server database diperlukan untuk berfungsi sebagai backend untuk operasi baca dan tulis yang dilakukan slurmdbd daemon. Sebelum cluster dibuat atau diperbarui untuk mengaktifkan Slurm akuntansi, node kepala harus dapat mencapai server database.

Jika Anda perlu menyebarkan server database pada VPC selain yang digunakan cluster, pertimbangkan hal berikut:

  • Untuk mengaktifkan komunikasi antara slurmdbd sisi cluster dan server database, Anda harus mengatur konektivitas antara dua VPC. Untuk informasi selengkapnya, lihat VPC Peering di Panduan Pengguna Amazon Virtual Private Cloud.

  • Anda harus membuat grup keamanan yang ingin Anda lampirkan ke node kepala pada VPC cluster. Setelah dua VPC telah diintip, cross-linking antara sisi database dan kelompok keamanan sisi cluster tersedia. Untuk informasi selengkapnya, lihat Aturan Grup Keamanan di Panduan Pengguna Amazon Virtual Private Cloud.

Mengkonfigurasi enkripsi TLS antara slurmdbd dan server database

Dengan konfigurasi Slurm akuntansi default yang AWS ParallelCluster menyediakan, slurmdbd menetapkan koneksi terenkripsi TLS ke server database, jika server mendukung enkripsi TLS. AWS layanan database seperti Amazon RDS dan Amazon Aurora mendukung enkripsi TLS secara default.

Anda dapat memerlukan koneksi aman di sisi server dengan mengatur require_secure_transport parameter pada server database. Ini dikonfigurasi dalam CloudFormation template yang disediakan.

Mengikuti praktik keamanan terbaik, kami menyarankan Anda juga mengaktifkan verifikasi identitas server pada slurmdbd klien. Untuk melakukan ini, konfigurasikan StorageParametersdislurmdbd.conf. Unggah sertifikat CA server ke node kepala cluster. Selanjutnya, atur opsi SSL_CA dari StorageParameters in slurmdbd.conf ke jalur sertifikat CA server pada node kepala. Melakukan hal ini memungkinkan verifikasi identitas server di slurmdbd samping. Setelah Anda membuat perubahan ini, restart slurmdbd layanan untuk membangun kembali konektivitas ke server database dengan verifikasi identitas diaktifkan.

Memperbarui kredensi database

Untuk memperbarui nilai untuk Database/UserNameatau PasswordSecretArn, Anda harus terlebih dahulu menghentikan armada komputasi. Misalkan nilai rahasia yang disimpan dalam AWS Secrets Manager rahasia diubah dan ARN-nya tidak berubah. Dalam situasi ini, cluster tidak secara otomatis memperbarui kata sandi database ke nilai baru. Untuk memperbarui cluster untuk nilai rahasia baru, jalankan perintah berikut dari node kepala.

$ sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
Awas

Untuk menghindari kehilangan data akuntansi, kami sarankan Anda hanya mengubah kata sandi database saat armada komputasi dihentikan.

Pemantauan basis data

Kami menyarankan Anda mengaktifkan fitur pemantauan layanan AWS database. Untuk informasi selengkapnya, lihat pemantauan Amazon RDS atau dokumentasi pemantauan Amazon Aurora.