Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Amazon
SageMaker HyperPod membantu Anda menyediakan klaster tangguh untuk menjalankan beban kerja pembelajaran mesin (ML) dan mengembangkan state-of-the-art model seperti model bahasa besar (LLMs), model difusi, dan model dasar (). FMs Ini mempercepat pengembangan FMs dengan menghilangkan angkat berat yang tidak berdiferensiasi yang terlibat dalam membangun dan memelihara cluster komputasi skala besar yang ditenagai oleh ribuan akselerator seperti AWS Trainium dan NVIDIA A100 dan H100 Graphical Processing Unit (). GPUs Ketika akselerator gagal, fitur ketahanan SageMaker HyperPod monitor instance cluster secara otomatis mendeteksi dan mengganti perangkat keras yang rusak dengan cepat sehingga Anda dapat fokus menjalankan beban kerja ML.
Untuk memulai, periksa, atur Prasyarat untuk menggunakan SageMaker HyperPodUNTUK, dan pilih salah satu opsi orkestrator berikut yang didukung oleh. SageMaker HyperPod
Dukungan slurm di SageMaker HyperPod
SageMaker HyperPod memberikan dukungan untuk menjalankan beban kerja pembelajaran mesin pada cluster tangguh dengan mengintegrasikan dengan Slurm, manajer beban kerja sumber terbuka. Dukungan slurm di SageMaker HyperPod memungkinkan orkestrasi cluster yang mulus melalui konfigurasi cluster Slurm, memungkinkan Anda untuk mengatur node head, login, dan pekerja pada cluster Integrasi ini juga memfasilitasi penjadwalan pekerjaan berbasis Slurm untuk menjalankan beban kerja ML. di SageMaker HyperPod cluster, serta akses langsung ke node cluster untuk penjadwalan pekerjaan. Dengan HyperPod dukungan konfigurasi siklus hidup, Anda dapat menyesuaikan lingkungan komputasi cluster untuk memenuhi persyaratan spesifik Anda. Selain itu, dengan memanfaatkan perpustakaan pelatihan terdistribusi Amazon SageMaker AI, Anda dapat mengoptimalkan kinerja cluster pada AWS komputasi dan sumber daya jaringan. Untuk mempelajari selengkapnya, lihat Mengatur cluster dengan Slurm SageMaker HyperPod .
Dukungan Amazon EKS di SageMaker HyperPod
SageMaker HyperPod juga terintegrasi dengan Amazon EKS untuk memungkinkan pelatihan skala besar model pondasi pada cluster komputasi yang berjalan lama dan tangguh. Hal ini memungkinkan pengguna admin klaster untuk menyediakan HyperPod cluster dan melampirkannya ke bidang kontrol EKS, memungkinkan manajemen kapasitas dinamis, akses langsung ke instance cluster, dan kemampuan ketahanan. Untuk ilmuwan data, dukungan Amazon EKS HyperPod memungkinkan menjalankan beban kerja kontainer untuk melatih model fondasi, inferensi pada klaster EKS, dan memanfaatkan kemampuan resume otomatis pekerjaan untuk pelatihan Kubeflow. PyTorch Arsitekturnya melibatkan pemetaan 1-ke-1 antara kluster EKS (bidang kontrol) dan HyperPod cluster (node pekerja) dalam VPC, memberikan solusi terintegrasi erat untuk menjalankan beban kerja ML skala besar. Untuk mempelajari selengkapnya, lihat Mengatur SageMaker HyperPod cluster dengan Amazon EKS.
UltraServers dengan HyperPod
HyperPod dengan UltraServers memberikan daya komputasi AI dengan mengintegrasikan superchip NVIDIA ke dalam infrastruktur yang kohesif dan berkinerja tinggi. Masing-masing NVL72 UltraServer menggabungkan 18 instans dengan 72 NVIDIA Blackwell yang GPUs saling terhubung melalui NVLink, memungkinkan inferensi yang lebih cepat dan kinerja pelatihan yang lebih cepat dibandingkan dengan instans generasi sebelumnya. Arsitektur ini sangat berharga bagi organisasi yang bekerja dengan model fondasi triliunan parameter, karena memori GPU terpadu memungkinkan seluruh model tetap berada dalam satu NVLink domain, menghilangkan kemacetan jaringan lintas-node. HyperPod meningkatkan keunggulan perangkat keras ini dengan penjadwalan sadar topologi cerdas yang mengoptimalkan penempatan beban kerja, penggantian instans otomatis untuk meminimalkan gangguan, dan opsi penerapan fleksibel yang mendukung konfigurasi sumber daya khusus dan bersama. Untuk tim yang mendorong batasan ukuran dan kinerja model, integrasi ini menyediakan fondasi komputasi yang diperlukan untuk melatih dan menerapkan model AI paling canggih dengan efisiensi yang belum pernah terjadi sebelumnya.
SageMaker HyperPod secara otomatis mengoptimalkan penempatan instance di seluruh Anda UltraServers. Secara default, HyperPod memprioritaskan semua instance dalam satu UltraServer sebelum menggunakan yang berbeda. Misalnya, jika Anda menginginkan 14 instance dan memiliki 2 UltraServers dalam paket Anda, SageMaker AI menggunakan semua instance di yang pertama. UltraServer Jika Anda menginginkan 20 instance, SageMaker AI menggunakan semua 18 instance di yang pertama UltraServer dan kemudian menggunakan 2 lagi dari yang kedua.
Didukung oleh
SageMaker HyperPod tersedia di dalam Wilayah Wilayah AWS berikut:
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-south-2
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-southeast-3
-
ap-southeast-4
-
ap-northeast-1
-
sa-east-1