Jalankan pekerjaan menggunakan SageMaker HyperPod CLI - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Jalankan pekerjaan menggunakan SageMaker HyperPod CLI

Untuk menjalankan pekerjaan, pastikan Anda menginstal Kubeflow Training Operator di cluster. EKS Untuk informasi selengkapnya, lihat Instal paket di EKS cluster Amazon menggunakan Helm.

Jalankan hyperpod get-cluster perintah untuk mendapatkan daftar HyperPod cluster yang tersedia.

hyperpod get-clusters

Jalankan hyperpod connect-cluster untuk mengkonfigurasi SageMaker HyperPod CLI dengan EKS cluster yang mengatur cluster. HyperPod

hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>

Gunakan hyperpod start-job perintah untuk menjalankan pekerjaan. Perintah berikut menunjukkan perintah dengan opsi yang diperlukan.

hyperpod start-job \ --job-name <job-name> --image <docker-image-uri> --entry-script <entrypoint-script> --instance-type <ml.instance.type> --node-count <integer>

hyperpod start-jobPerintah ini juga dilengkapi dengan berbagai opsi untuk ketahanan kerja

Mengaktifkan resume otomatis pekerjaan

hyperpod start-jobPerintah ini juga memiliki opsi berikut untuk menentukan resume otomatis pekerjaan. Untuk mengaktifkan resume otomatis pekerjaan agar berfungsi dengan fitur ketahanan SageMaker HyperPod simpul, Anda harus menetapkan nilai opsi tersebut. restart-policy OnFailure Pekerjaan harus berjalan di bawah kubeflow namespace atau namespace yang diawali dengan. hyperpod

  • [--auto-resume<bool>] #Optional, aktifkan resume otomatis pekerjaan setelah gagal, defaultnya salah

  • [--max-retry<int>] #Optional, jika auto-resume benar, nilai default max-retry adalah 1 jika tidak ditentukan

  • [--restart-policy<enum>] #Optional, mulai ulang kebijakan. PyTorchJob Nilai yang tersedia adalahAlways,OnFailure, Never atauExitCode. Nilai default-nya adalah OnFailure.

hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure

Menjalankan pekerjaan dengan opsi penjadwalan

hyperpod start-jobPerintah memiliki opsi berikut untuk mengatur pekerjaan dengan mekanisme antrian.

catatan

Anda perlu Kueue diinstal di cluster. EKS Jika Anda belum menginstal, ikuti instruksi diInstal paket di EKS cluster Amazon menggunakan Helm.

hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high

Menjalankan pekerjaan dari file konfigurasi

Sebagai alternatif, Anda dapat membuat file konfigurasi pekerjaan yang berisi semua parameter yang diperlukan oleh pekerjaan dan kemudian meneruskan file konfigurasi ini ke hyperpod start-job perintah menggunakan opsi --config-file. Dalam kasus ini:

  1. Buat file konfigurasi pekerjaan Anda dengan parameter yang diperlukan. Lihat file konfigurasi pekerjaan di SageMaker HyperPod CLI GitHub repositori untuk file konfigurasi dasar.

  2. Mulai pekerjaan menggunakan file konfigurasi sebagai berikut.

    hyperpod start-job --config-file /path/to/test_job.yaml

Untuk mempelajari lebih lanjut tentang daftar parameter individual dari hyperpod start-job perintah, lihat bagian Submitting a Job di README.md repositori. SageMaker HyperPod CLI GitHub