Menjalankan pekerjaan pelatihan pada cluster heterogen

Dengan menggunakan fitur klaster heterogen dari SageMaker Pelatihan, Anda dapat menjalankan pekerjaan pelatihan dengan beberapa jenis instans ML untuk penskalaan dan pemanfaatan sumber daya yang lebih baik untuk tugas dan tujuan pelatihan ML yang berbeda. Misalnya, jika pekerjaan pelatihan Anda di klaster dengan instans GPU mengalami pemanfaatan GPU yang rendah dan masalah kemacetan CPU karena tugas intensif CPU, menggunakan klaster heterogen dapat membantu menurunkan tugas intensif CPU dengan menambahkan grup instans CPU yang lebih hemat biaya, menyelesaikan masalah kemacetan tersebut, dan mencapai pemanfaatan GPU yang lebih baik.

catatan

Fitur ini tersedia di SageMaker Python SDK v2.98.0 dan yang lebih baru.

catatan

Fitur ini tersedia melalui kelas SageMaker AI PyTorchdan penaksir TensorFlowkerangka kerja. Kerangka kerja yang didukung adalah PyTorch v1.10 atau yang lebih baru dan TensorFlow v2.6 atau yang lebih baru.

Lihat juga blog Tingkatkan kinerja harga pelatihan model Anda menggunakan klaster heterogen Amazon SageMaker AI.

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

SageMaker Variabel lingkungan AI dan jalur default untuk lokasi penyimpanan pelatihan

Konfigurasikan pekerjaan pelatihan dengan cluster heterogen di Amazon AI SageMaker