Menjalankan pekerjaan pelatihan di HyperPod Slurm

SageMaker HyperPod Resep mendukung pengiriman pekerjaan pelatihan ke cluster GPU/Trainium slurm. Sebelum Anda mengirimkan pekerjaan pelatihan, perbarui konfigurasi cluster. Gunakan salah satu metode berikut untuk memperbarui konfigurasi klaster:

Memodifikasi slurm.yaml
Menggantinya melalui baris perintah

Setelah Anda memperbarui konfigurasi cluster, instal lingkungan.

Langkah 3: Konfigurasi klaster

Untuk mengirimkan pekerjaan pelatihan ke cluster Slurm, tentukan konfigurasi khusus Slurm. Memodifikasi slurm.yaml untuk mengkonfigurasi cluster Slurm. Berikut ini adalah sebuah contoh konfigurasi yang disesuaikan: Anda dapat memodifikasi file ini untuk kebutuhan pelatihan Anda sendiri:


job_name_prefix: 'sagemaker-'
slurm_create_submission_file_only: False 
stderr_to_stdout: True
srun_args:
  # - "--no-container-mount-home"
slurm_docker_cfg:
  docker_args:
    # - "--runtime=nvidia" 
  post_launch_commands: 
container_mounts: 
  - "/fsx:/fsx"

job_name_prefix: Tentukan awalan nama pekerjaan untuk dengan mudah mengidentifikasi kiriman Anda ke cluster Slurm.
slurm_create_submission_file_only: Setel konfigurasi ini ke True untuk dry run guna membantu Anda men-debug.
stderr_to_stdout: Tentukan apakah Anda mengarahkan kesalahan standar Anda (stderr) ke output standar (stdout).
srun_args: Sesuaikan konfigurasi srun tambahan, seperti mengecualikan node komputasi tertentu. Lihat informasi yang lebih lengkap dalam dokumentasi .
slurm_docker_cfg: Peluncur SageMaker HyperPod resep meluncurkan wadah Docker untuk menjalankan pekerjaan pelatihan Anda. Anda dapat menentukan argumen Docker tambahan dalam parameter ini.
container_mounts: Tentukan volume yang Anda pasang ke wadah untuk peluncur resep, untuk pekerjaan pelatihan Anda untuk mengakses file dalam volume tersebut.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Konfigurasi khusus klaster

Menjalankan pekerjaan pelatihan di HyperPod k8s