Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Jalankan pekerjaan menggunakan SageMaker HyperPod CLI
Untuk menjalankan pekerjaan, pastikan Anda menginstal Kubeflow Training Operator di cluster. EKS Untuk informasi selengkapnya, lihat Instal paket di EKS cluster Amazon menggunakan Helm.
Jalankan hyperpod get-cluster
perintah untuk mendapatkan daftar HyperPod cluster yang tersedia.
hyperpod get-clusters
Jalankan hyperpod connect-cluster
untuk mengkonfigurasi SageMaker HyperPod CLI dengan EKS cluster yang mengatur cluster. HyperPod
hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>
Gunakan hyperpod start-job
perintah untuk menjalankan pekerjaan. Perintah berikut menunjukkan perintah dengan opsi yang diperlukan.
hyperpod start-job \ --job-name
<job-name>
--image<docker-image-uri>
--entry-script<entrypoint-script>
--instance-type<ml.instance.type>
--node-count<integer>
hyperpod start-job
Perintah ini juga dilengkapi dengan berbagai opsi untuk ketahanan kerja
Mengaktifkan resume otomatis pekerjaan
hyperpod start-job
Perintah ini juga memiliki opsi berikut untuk menentukan resume otomatis pekerjaan. Untuk mengaktifkan resume otomatis pekerjaan agar berfungsi dengan fitur ketahanan SageMaker HyperPod simpul, Anda harus menetapkan nilai opsi tersebut. restart-policy
OnFailure
Pekerjaan harus berjalan di bawah kubeflow
namespace atau namespace yang diawali dengan. hyperpod
-
[--auto-resume<bool>] #Optional, aktifkan resume otomatis pekerjaan setelah gagal, defaultnya salah
-
[--max-retry<int>] #Optional, jika auto-resume benar, nilai default max-retry adalah 1 jika tidak ditentukan
-
[--restart-policy<enum>] #Optional, mulai ulang kebijakan. PyTorchJob Nilai yang tersedia adalah
Always
,OnFailure
,Never
atauExitCode
. Nilai default-nya adalahOnFailure
.
hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure
Menjalankan pekerjaan dengan opsi penjadwalan
hyperpod start-job
Perintah memiliki opsi berikut untuk mengatur pekerjaan dengan mekanisme antrian.
catatan
Anda perlu Kueue
-
[--scheduler-type<enum>] #Optional, Tentukan jenis penjadwal. Default-nya adalah
Kueue
. -
[--queue-name<string>] #Optional, Tentukan nama Antrian Lokal atau Antrian
Cluster yang ingin Anda kirimkan dengan pekerjaan. Antrian harus dibuat oleh admin cluster. -
[--priority<string>] #Optional, Tentukan nama Kelas Prioritas Beban Kerja
, yang harus dibuat oleh admin cluster.
hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high
Menjalankan pekerjaan dari file konfigurasi
Sebagai alternatif, Anda dapat membuat file konfigurasi pekerjaan yang berisi semua parameter yang diperlukan oleh pekerjaan dan kemudian meneruskan file konfigurasi ini ke hyperpod
start-job
perintah menggunakan opsi --config-file. Dalam kasus ini:
-
Buat file konfigurasi pekerjaan Anda dengan parameter yang diperlukan. Lihat file konfigurasi pekerjaan di SageMaker HyperPod CLI GitHub repositori untuk file konfigurasi dasar.
-
Mulai pekerjaan menggunakan file konfigurasi sebagai berikut.
hyperpod start-job --config-file
/path/to/test_job.yaml
Untuk mempelajari lebih lanjut tentang daftar parameter individual dari hyperpod
start-job
perintah, lihat bagian Submitting a JobREADME.md
repositori. SageMaker HyperPod CLI GitHub