Mulai SageMaker HyperPod cepat Amazon - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mulai SageMaker HyperPod cepat Amazon

Quickstart ini memandu Anda membuat HyperPod cluster pertama Anda dengan orkestrasi Slurm dan Amazon EKS (EKS). Pilih orkestrasi yang paling sesuai dengan kebutuhan infrastruktur Anda untuk memulai. SageMaker HyperPod

Buat cluster yang diatur Slurm SageMaker HyperPod

Ikuti langkah-langkah ini untuk membuat SageMaker HyperPod cluster pertama Anda dengan orkestrasi Slurm.

  1. Buka konsol Amazon SageMaker AI di https://console.aws.amazon.com/sagemaker/.

  2. Pilih HyperPod Cluster di panel navigasi kiri dan kemudian Manajemen Cluster.

  3. Pada halaman Klaster, pilih Buat klaster.

  4. Pada drop-down Create HyperPod cluster, pilih Orchestrated by Slurm.

  5. Pada halaman pembuatan cluster, pilih Pengaturan cepat. Dengan opsi ini, Anda segera memulai dengan pengaturan default. SageMaker AI akan membuat sumber daya baru seperti VPC, subnet, grup keamanan, bucket Amazon S3, peran IAM, dan FSx untuk Lustre dalam proses pembuatan cluster Anda.

  6. Pada pengaturan Umum, tentukan nama untuk cluster baru. Anda tidak dapat mengubah nama pengguna master setelah klaster DB dibuat.

  7. Pada grup Instance, pilih Tambah grup. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk men-deploy klaster, Anda harus menambahkan setidaknya satu grup instans. Anda dapat menambahkan satu grup instance dalam satu waktu. Untuk membuat beberapa grup instance, ulangi proses untuk setiap grup instance.

    Ikuti langkah-langkah berikut untuk menambahkan grup instans.

    1. Untuk tipe grup Instance, pilih tipe untuk grup instans Anda. Untuk memulai cepat ini, pilih Controller (head) formy-controller-group, Login formy-login-group, dan Compute (worker) untuk. worker-group-1

    2. Untuk Nama, tentukan nama untuk grup instance. Untuk quickstart ini, buat tiga grup instance bernamamy-controller-group,my-login-group, danworker-group-1.

    3. Untuk kapasitas Instans, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.

    4. Untuk Tipe instans, pilih tipe instans untuk instans tersebut. Untuk memulai cepat ini, pilih ml.c5.xlarge untukmy-controller-group, ml.m5.4xlarge untukmy-login-group, dan ml.trn1.32xlarge untukworker-group-1.

      Pastikan Anda memilih jenis instans dengan kuota yang cukup di akun Anda, atau minta kuota tambahan dengan mengikuti petunjuk di. Kuota SageMaker HyperPod

    5. Untuk kuantitas Instance, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk memulai cepat ini, masukkan 1 untuk ketiga grup.

    6. Untuk Zona Ketersediaan Target, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

    7. Untuk volume penyimpanan tambahan per instance (GB) - opsional, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah/opt/sagemaker. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah. df -h Melampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic Block Store.

    8. Pilih Tambahkan grup instans.

  8. Pada default konfigurasi cepat, tinjau pengaturan default. Bagian ini mencantumkan semua pengaturan default untuk pembuatan klaster Anda, termasuk semua AWS sumber daya baru yang akan dibuat selama proses pembuatan klaster.

  9. Pilih Kirim.

Untuk informasi selengkapnya, lihat Memulai dengan konsol SageMaker HyperPod menggunakan SageMaker .

Buat kluster yang diatur EKS SageMaker HyperPod

Ikuti langkah-langkah berikut untuk membuat SageMaker HyperPod cluster pertama Anda dengan orkestrasi Amazon EKS.

  1. Buka konsol Amazon SageMaker AI di https://console.aws.amazon.com/sagemaker/.

  2. Pilih HyperPod Cluster di panel navigasi kiri dan kemudian Manajemen Cluster.

  3. Pada halaman Klaster, pilih Buat klaster.

  4. Pada drop-down Create HyperPod cluster, pilih Orchestrated by Amazon EKS.

  5. Pada halaman pembuatan cluster, pilih Konfigurasi cepat. Dengan opsi ini, Anda dapat segera memulai dengan pengaturan default. SageMaker AI akan membuat sumber daya baru seperti VPC, subnet, grup keamanan, bucket Amazon S3, peran IAM, dan FSx untuk Lustre dalam proses pembuatan cluster Anda.

  6. Pada pengaturan Umum, tentukan nama untuk cluster baru. Anda tidak dapat mengubah nama pengguna master setelah klaster DB dibuat.

  7. Pada grup Instance, pilih Tambah grup. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk menerapkan klaster, Anda harus menambahkan setidaknya satu grup instans. Anda dapat menambahkan satu grup instance dalam satu waktu. Untuk membuat beberapa grup instance, ulangi proses untuk setiap grup instance.

    Ikuti langkah-langkah berikut untuk menambahkan grup instans.

    1. Untuk tipe grup Instance, pilih Standard atau Restricted Instance Group (RIG). Biasanya, Anda akan memilih Standar, yang menyediakan lingkungan komputasi tujuan umum tanpa batasan keamanan tambahan. Restricted Instance Group (RIG) adalah lingkungan khusus untuk kustomisasi model dasar seperti Amazon Nova. Untuk informasi selengkapnya tentang pengaturan penyesuaian model RIG untuk Amazon Nova, lihatKustomisasi Amazon Nova di Amazon SageMaker HyperPod.

    2. Untuk Nama, tentukan nama untuk grup instance.

    3. Untuk kapasitas Instans, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.

    4. Untuk Tipe instans, pilih tipe instans untuk instans tersebut. Pastikan Anda memilih jenis instans dengan kuota yang cukup di akun Anda, atau minta kuota tambahan dengan mengikuti di. Kuota SageMaker HyperPod

    5. Untuk kuantitas Instance, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk memulai cepat ini, masukkan 1 untuk ketiga grup.

    6. Untuk Zona Ketersediaan Target, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

    7. Untuk volume penyimpanan tambahan per instance (GB) - opsional, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah/opt/sagemaker. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah. df -h Melampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic Block Store.

    8. Misalnya pemeriksaan kesehatan mendalam, pilih opsi Anda. Pemeriksaan kesehatan mendalam memantau kesehatan instans selama pembuatan dan setelah pembaruan perangkat lunak, secara otomatis memulihkan instance yang salah melalui reboot atau penggantian saat diaktifkan.

    9. Pilih Tambahkan grup instans.

  8. Pada default konfigurasi cepat, tinjau pengaturan default. Bagian ini mencantumkan semua pengaturan default untuk pembuatan klaster Anda, termasuk semua AWS sumber daya baru yang akan dibuat selama proses pembuatan klaster.

  9. Pilih Kirim.

Untuk informasi selengkapnya, lihat Membuat SageMaker HyperPod cluster dengan orkestrasi Amazon EKS.

Kirim beban kerja

Ikuti tutorial lokakarya ini untuk mengirimkan contoh beban kerja.