Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menjalankan pekerjaan pelatihan di HyperPod Slurm
SageMaker HyperPod Resep mendukung pengiriman pekerjaan pelatihan ke cluster GPU/Trainium slurm. Sebelum Anda mengirimkan pekerjaan pelatihan, perbarui konfigurasi cluster. Gunakan salah satu metode berikut untuk memperbarui konfigurasi klaster:
-
Memodifikasi
slurm.yaml
-
Menggantinya melalui baris perintah
Setelah Anda memperbarui konfigurasi cluster, instal lingkungan.
Langkah 3: Konfigurasi klaster
Untuk mengirimkan pekerjaan pelatihan ke cluster Slurm, tentukan konfigurasi khusus Slurm. Memodifikasi slurm.yaml
untuk mengkonfigurasi cluster Slurm. Berikut ini adalah sebuah contoh konfigurasi yang disesuaikan: Anda dapat memodifikasi file ini untuk kebutuhan pelatihan Anda sendiri:
job_name_prefix: 'sagemaker-' slurm_create_submission_file_only: False stderr_to_stdout: True srun_args: # - "--no-container-mount-home" slurm_docker_cfg: docker_args: # - "--runtime=nvidia" post_launch_commands: container_mounts: - "/fsx:/fsx"
-
job_name_prefix
: Tentukan awalan nama pekerjaan untuk dengan mudah mengidentifikasi kiriman Anda ke cluster Slurm. -
slurm_create_submission_file_only
: Setel konfigurasi ini ke True untuk dry run guna membantu Anda men-debug. -
stderr_to_stdout
: Tentukan apakah Anda mengarahkan kesalahan standar Anda (stderr) ke output standar (stdout). -
srun_args
: Sesuaikan konfigurasi srun tambahan, seperti mengecualikan node komputasi tertentu. Lihat informasi yang lebih lengkap dalam dokumentasi . -
slurm_docker_cfg
: Peluncur SageMaker HyperPod resep meluncurkan wadah Docker untuk menjalankan pekerjaan pelatihan Anda. Anda dapat menentukan argumen Docker tambahan dalam parameter ini. -
container_mounts
: Tentukan volume yang Anda pasang ke wadah untuk peluncur resep, untuk pekerjaan pelatihan Anda untuk mengakses file dalam volume tersebut.