Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memulai dengan konsol SageMaker HyperPod menggunakan SageMaker
Tutorial berikut menunjukkan cara membuat SageMaker HyperPod cluster baru dan mengaturnya dengan Slurm melalui UI konsol SageMaker AI. Mengikuti tutorial, Anda akan membuat HyperPod cluster dengan tiga node Slurm,, my-controller-group
my-login-group
, dan. worker-group-1
Topik
Membuat Klaster
Untuk menavigasi ke halaman SageMaker HyperPod Clusters dan memilih orkestrasi slurm, ikuti langkah-langkah ini.
Buka konsol Amazon SageMaker AI di https://console.aws.amazon.com/sagemaker/
. -
Pilih HyperPod Cluster di panel navigasi kiri dan kemudian Manajemen Cluster.
-
Pada halaman Klaster, pilih Buat klaster.
-
Pada drop-down Create HyperPod cluster, pilih Orchestrated by Slurm.
-
Pada halaman pembuatan cluster Slurm, Anda akan melihat dua opsi. Pilih salah satu yang paling sesuai dengan kebutuhan Anda.
-
Pengaturan cepat -Untuk segera memulai dengan pengaturan default, pilih Pengaturan cepat. Dengan opsi ini, SageMaker AI akan membuat sumber daya baru seperti VPC, subnet, grup keamanan, bucket Amazon S3, peran IAM, dan FSx untuk Lustre dalam proses pembuatan cluster Anda.
-
Penyiapan khusus -Untuk mengintegrasikan dengan AWS sumber daya yang ada atau memiliki persyaratan jaringan, keamanan, atau penyimpanan tertentu, pilih Penyiapan khusus. Dengan opsi ini, Anda dapat memilih untuk menggunakan sumber daya yang ada atau membuat yang baru, dan Anda dapat menyesuaikan konfigurasi yang paling sesuai dengan kebutuhan Anda.
-
Pengaturan Cepat
Pada bagian Quick setup, ikuti langkah-langkah ini untuk membuat HyperPod cluster Anda dengan orkestrasi Slurm.
Tentukan nama untuk klaster baru. Anda tidak dapat mengubah nama pengguna master setelah klaster DB dibuat.
Untuk menambahkan grup instance, pilih Tambah grup. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk menerapkan klaster, Anda harus menambahkan setidaknya satu grup instans.
penting
Anda dapat menambahkan satu grup instance dalam satu waktu. Untuk membuat beberapa grup instance, ulangi proses untuk setiap grup instance.
Ikuti langkah-langkah berikut untuk menambahkan grup instans.
-
Untuk tipe grup Instance, pilih tipe untuk grup instans Anda. Untuk tutorial ini, pilih Controller (head) for
my-controller-group
, Login formy-login-group
, dan Compute (worker) untukworker-group-1
. -
Untuk Nama, tentukan nama untuk grup instance. Untuk tutorial ini, buat tiga grup instance bernama
my-controller-group
,my-login-group
, danworker-group-1
. -
Untuk kapasitas Instans, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.
-
Untuk Tipe instans, pilih tipe instans untuk instans tersebut. Untuk tutorial ini, pilih
ml.c5.xlarge
untukmy-controller-group
,ml.m5.4xlarge
untukmy-login-group
, danml.trn1.32xlarge
untukworker-group-1
.Pastikan Anda memilih jenis instans dengan kuota yang cukup di akun Anda, atau minta kuota tambahan dengan mengikuti di. Kuota SageMaker HyperPod
-
Untuk kuantitas Instance, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk tutorial ini, masukkan 1 untuk ketiga grup.
-
Untuk Zona Ketersediaan Target, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.
-
Untuk volume penyimpanan tambahan per instance (GB) - opsional, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah
/opt/sagemaker
. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah.df -h
Melampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic Block Store. -
Pilih Tambahkan grup instans.
Bagian ini mencantumkan semua pengaturan default untuk pembuatan klaster Anda, termasuk semua AWS sumber daya baru yang akan dibuat selama proses pembuatan klaster. Tinjau pengaturan default.
Pengaturan khusus
Pada bagian Custom setup, ikuti langkah-langkah ini untuk membuat HyperPod cluster Anda dengan orkestrasi Slurm.
Tentukan nama untuk klaster baru. Anda tidak dapat mengubah nama pengguna master setelah klaster DB dibuat.
Untuk pemulihan Instance, pilih Otomatis - direkomendasikan atau Tidak Ada.
Konfigurasikan pengaturan jaringan Anda untuk pembuatan cluster. Itu tidak dapat diubah setelah klaster dibuat.
-
Untuk VPC, pilih VPC Anda sendiri jika Anda sudah memiliki VPC yang memberikan akses SageMaker AI ke VPC Anda. Untuk membuat VPC baru, ikuti petunjuk di Buat VPC di Panduan Pengguna Amazon Virtual Private Cloud. Anda dapat membiarkannya sebagai None untuk menggunakan SageMaker AI VPC default.
-
Untuk blok VPC IPv4 CIDR, masukkan IP awal VPC Anda.
-
Untuk Availability Zones, pilih Availability Zones (AZ) di mana HyperPod akan membuat subnet untuk cluster Anda. Pilih AZs yang sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.
-
Untuk grup Keamanan, buat grup keamanan atau pilih hingga lima grup keamanan yang dikonfigurasi dengan aturan untuk memungkinkan komunikasi antar sumber daya dalam VPC.
Untuk menambahkan grup instance, pilih Tambah grup. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk menerapkan klaster, Anda harus menambahkan setidaknya satu grup instans.
penting
Anda dapat menambahkan satu grup instance dalam satu waktu. Untuk membuat beberapa grup instance, ulangi proses untuk setiap grup instance.
Ikuti langkah-langkah berikut untuk menambahkan grup instans.
-
Untuk tipe grup Instance, pilih tipe untuk grup instans Anda. Untuk tutorial ini, pilih Controller (head) for
my-controller-group
, Login formy-login-group
, dan Compute (worker) untukworker-group-1
. -
Untuk Nama, tentukan nama untuk grup instance. Untuk tutorial ini, buat tiga grup instance bernama
my-controller-group
,my-login-group
, danworker-group-1
. -
Untuk kapasitas Instans, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.
-
Untuk Tipe instans, pilih tipe instans untuk instans tersebut. Untuk tutorial ini, pilih
ml.c5.xlarge
untukmy-controller-group
,ml.m5.4xlarge
untukmy-login-group
, danml.trn1.32xlarge
untukworker-group-1
.Pastikan Anda memilih jenis instans dengan kuota yang cukup di akun Anda, atau minta kuota tambahan dengan mengikuti di. Kuota SageMaker HyperPod
-
Untuk kuantitas Instance, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk tutorial ini, masukkan 1 untuk ketiga grup.
-
Untuk Zona Ketersediaan Target, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.
-
Untuk volume penyimpanan tambahan per instance (GB) - opsional, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah
/opt/sagemaker
. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah.df -h
Melampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic Block Store. -
Pilih Tambahkan grup instans.
Anda dapat memilih untuk menggunakan skrip siklus hidup default atau skrip siklus hidup kustom, yang akan disimpan di bucket Amazon S3 Anda. Anda dapat melihat skrip siklus hidup default di repositori Pelatihan Terdistribusi Luar Biasa
-
Untuk skrip Siklus Hidup, pilih untuk menggunakan skrip siklus hidup default atau kustom.
-
Untuk bucket S3 untuk skrip siklus hidup, pilih untuk membuat bucket baru atau gunakan bucket yang ada untuk menyimpan skrip siklus hidup.
Pilih atau buat peran IAM yang memungkinkan HyperPod untuk menjalankan dan mengakses AWS sumber daya yang diperlukan atas nama Anda.
Konfigurasikan sistem file FSx for Lustre yang akan disediakan di cluster. HyperPod
-
Untuk sistem File, pilih yang sudah ada FSx untuk sistem file Lustre, untuk membuat yang baru FSx untuk sistem file Lustre, atau tidak menyediakan FSx untuk sistem file Lustre.
-
Untuk Throughput per unit penyimpanan, pilih throughput yang akan tersedia per TiB penyimpanan yang disediakan.
-
Untuk kapasitas penyimpanan, masukkan nilai kapasitas dalam TB.
-
Untuk tipe kompresi data, pilih LZ4untuk mengaktifkan kompresi data.
-
Untuk versi Lustre, lihat nilai yang direkomendasikan untuk sistem file baru.
Untuk Tag - opsional, tambahkan pasangan kunci dan nilai ke cluster baru dan kelola cluster sebagai AWS sumber daya. Untuk mempelajari lebih lanjut tentang penandaan sumber daya , lihat .
Terapkan sumber daya
Setelah Anda menyelesaikan konfigurasi klaster menggunakan Penyiapan cepat atau Penyiapan khusus, pilih opsi berikut untuk memulai penyediaan sumber daya dan pembuatan klaster.
-
Kirim - SageMaker AI akan mulai menyediakan sumber daya konfigurasi default dan membuat cluster.
-
Unduh parameter CloudFormation template -Anda akan mengunduh parameter konfigurasi file JSON dan menjalankan AWS CLI perintah untuk menyebarkan CloudFormation tumpukan untuk menyediakan sumber daya konfigurasi dan membuat cluster. Anda dapat mengedit file JSON parameter yang diunduh jika diperlukan. Jika Anda memilih opsi ini, lihat petunjuk lainnya diMembuat SageMaker HyperPod cluster menggunakan template AWS CloudFormation.
Hapus cluster dan sumber daya bersih
Setelah Anda berhasil menguji pembuatan SageMaker HyperPod klaster, klaster terus berjalan di InService
status hingga Anda menghapus klaster. Kami menyarankan Anda menghapus klaster apa pun yang dibuat menggunakan instance SageMaker AI sesuai permintaan saat tidak digunakan untuk menghindari biaya layanan lanjutan berdasarkan harga sesuai permintaan. Dalam tutorial ini, Anda telah membuat sebuah cluster yang terdiri dari dua kelompok instance. Salah satunya menggunakan instance C5, jadi pastikan Anda menghapus cluster dengan mengikuti instruksi diMenghapus klaster DB.
Namun, jika Anda telah membuat klaster dengan kapasitas komputasi cadangan, status cluster tidak memengaruhi penagihan layanan.
Untuk membersihkan skrip siklus hidup dari bucket S3 yang digunakan untuk tutorial ini, buka bucket S3 yang Anda gunakan selama pembuatan cluster dan hapus file seluruhnya.
Jika Anda telah menguji menjalankan beban kerja apa pun di cluster, pastikan apakah Anda telah mengunggah data apa pun atau jika pekerjaan Anda menyimpan artefak apa pun ke bucket S3 atau layanan sistem file yang berbeda seperti Amazon FSx for Lustre dan Amazon Elastic File System. Untuk mencegah biaya yang timbul, hapus semua artefak dan data dari penyimpanan atau sistem file.