Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Membuat cluster HyperPod EKS dengan grup instans terbatas (RIG)
Topik ini mencakup langkah-langkah untuk membuat klaster Amazon SageMaker HyperPod EKS dengan grup instans terbatas (RIG). Konfigurasi RIG di kluster SageMaker HyperPod EKS menyediakan lingkungan khusus untuk melatih model Amazon Nova. RIG memiliki batasan sebagai berikut:
-
Beban kerja RIG berjalan dalam VPC bebas internet, semua masuk dan keluar diatur secara ketat.
-
RIG memiliki batasan pada observabilitas fungsi Kubernetes seperti Kubectl exec dan log untuk memastikan lingkungan yang aman untuk pelatihan model Nova.
-
RIG hanya mengizinkan gambar kustomisasi Nova, dan pekerjaan yang berjalan dengan gambar lain akan ditolak.
Anda dapat membuat RIGs saat menyiapkan grup instans di kluster HyperPod EKS Anda. Meskipun Anda dapat mengontrol ukuran dan penskalaan sumber daya ini, Anda tidak dapat langsung mengakses node pekerja. Arsitektur ini memastikan komponen Nova (bobot model, pos pemeriksaan, data pelatihan, dan kode) hanya dapat diakses melalui saluran yang diatur dan sistem akun yang dikelola layanan.
Kustomisasi model Nova SageMaker HyperPod bergantung pada layanan yang dikelola FSx untuk sistem file Lustre untuk mencapai kinerja yang optimal. Saat membuat RIG, Anda harus menentukan ukuran volume dan throughput untuk sistem file FSx for Lustre, yang akan dipasang ke semua node pekerja dalam grup instance. FSx untuk Lustre digunakan untuk menyimpan pos pemeriksaan menengah dan status model internal selama pelatihan terdistribusi. Ikuti panduan yang diberikan dalam resep untuk memilih ukuran volume dan throughput yang sesuai untuk memastikan kapasitas dan kinerja yang memadai. FSx untuk biaya penggunaan Lustre akan berlaku untuk Anda. Akun AWS
Catatan penting untuk RIG di kluster HyperPod EKS
-
RIG hanya mendukung penggunaan peran eksekusi untuk izin. Pastikan bahwa peran eksekusi menyertakan izin IAM yang diperlukan, seperti akses ke Amazon S3.
-
Saat menggunakan Amazon yang dikelola layanan FSx untuk Lustre dan Amazon S3, pastikan bahwa sistem file FSx for Lustre Anda berukuran tepat untuk beban kerja Anda. Manifes data pelatihan diunggah ke Amazon S3, yang harus dapat diakses oleh peran eksekusi.
-
RIG harus dibuat atau diperbarui pada kluster SageMaker HyperPod EKS baru-khususnya, yang dibuat pada atau setelah 16 Juli 2025. Cluster yang dibuat sebelum tanggal ini mungkin berisi versi perangkat lunak yang tidak kompatibel atau konfigurasi yang tidak didukung oleh RIG.
Buat cluster HyperPod EKS dengan RIG (Console)
Ikuti petunjuk ini untuk membuat cluster HyperPod EKS dengan RIG menggunakan HyperPod konsol.
Buat cluster HyperPod EKS dengan RIG (CLI)
Ikuti petunjuk ini untuk membuat cluster HyperPod EKS dengan RIG menggunakan file. AWS CLI