Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Instal paket di kluster Amazon EKS menggunakan Helm
Sebelum membuat SageMaker HyperPod cluster dan melampirkannya ke cluster Amazon EKS, Anda harus menginstal paket menggunakan Helm
penting
Langkah instalasi helm ini adalah langkah yang diperlukan. Kegagalan untuk mengonfigurasi klaster Amazon EKS Anda menggunakan bagan Helm yang disediakan dapat mengakibatkan SageMaker HyperPod klaster tidak berfungsi dengan benar atau proses pembuatan gagal sepenuhnya. Nama aws-hyperpod
namespace tidak dapat diubah.
-
Instal Helm
di mesin lokal Anda. -
Unduh bagan Helm yang disediakan oleh SageMaker HyperPod terletak di
helm_chart/HyperPodHelmChart
dalam repositori SageMaker HyperPod CLI. git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
-
Perbarui dependensi bagan Helm, pratinjau perubahan yang akan dilakukan pada klaster Kubernetes Anda, dan instal bagan Helm.
helm dependencies update HyperPodHelmChart
helm install hyperpod-dependencies HyperPodHelmChart --dry-run
helm install hyperpod-dependencies HyperPodHelmChart
Singkatnya, instalasi Helm menyiapkan berbagai komponen untuk klaster Amazon EKS Anda, termasuk penjadwalan pekerjaan dan antrian (Kueue), manajemen penyimpanan, integrasi, dan Kubeflow. MLflow Selain itu, bagan menginstal komponen berikut untuk diintegrasikan dengan fitur ketahanan SageMaker HyperPod cluster, yang merupakan komponen yang diperlukan.
-
Agen pemantauan kesehatan — Ini menginstal agen pemantauan kesehatan yang disediakan oleh. SageMaker HyperPod Ini diperlukan jika Anda ingin agar HyperPod cluster Anda dipantau. Agen pemantauan kesehatan disediakan sebagai gambar Docker sebagai berikut. Dalam yang disediakan
values.yaml
dalam bagan Helm, gambar sudah diatur sebelumnya. Agen mendukung instance dan Trainium-accelerator-based instance berbasis GPU (trn1
,,).trn1n
inf2
Itu diinstal keaws-hyperpod
namespace.590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
-
Pemeriksaan kesehatan mendalam - Ini mengatur
ClusterRole
, a ServiceAccount (deep-health-check-service-account
) diaws-hyperpod
namespace, dan aClusterRoleBinding
untuk mengaktifkan fitur pemeriksaan kesehatan SageMaker HyperPod mendalam. Untuk informasi selengkapnya tentang file Kubernetes RBAC untuk pemeriksaan kesehatan mendalam, lihat file konfigurasi dideep-health-check-rbac.yaml
repositori CLI. SageMaker HyperPod GitHub -
job-auto-restart
- Ini mengaturClusterRole
, a ServiceAccount (job-auto-restart
) diaws-hyperpod
namespace, dan aClusterRoleBinding
, untuk mengaktifkan fitur restart otomatis untuk pekerjaan PyTorch pelatihan di. SageMaker HyperPod Untuk informasi selengkapnya tentang file Kubernetes RBACjob-auto-restart
, lihat file konfigurasi dijob-auto-restart-rbac.yaml
repositori CLI. SageMaker HyperPod GitHub -
Operator MPI Kubeflow — Operator MPI adalah operator Kubernetes yang menyederhanakan menjalankan beban kerja Machine Learning (ML
) dan High-Performance Computing (HPC) terdistribusi menggunakan Message Passing Interface (MPI) pada klaster Kubernetes. Ini menginstal MPI Operator v0.5. Itu diinstal ke mpi-operator
namespace. -
nvidia-device-plugin
— Ini adalah plug-in perangkat Kubernetes yang memungkinkan Anda mengekspos NVIDIA secara otomatis GPUs untuk dikonsumsi oleh kontainer di cluster Amazon EKS Anda. Hal ini memungkinkan Kubernetes untuk mengalokasikan dan menyediakan akses ke yang diminta GPUs untuk kontainer itu. Diperlukan saat menggunakan tipe instance dengan GPU. -
neuron-device-plugin
— Ini adalah plug-in perangkat Kubernetes yang memungkinkan Anda mengekspos chip AWS Inferentia secara otomatis untuk dikonsumsi oleh kontainer di cluster Amazon EKS Anda. Hal ini memungkinkan Kubernetes untuk mengakses dan memanfaatkan chip AWS Inferentia pada node cluster. Diperlukan saat menggunakan tipe instance Neuron. -
aws-efa-k8s-device-plugin
- Ini adalah plug-in perangkat Kubernetes yang memungkinkan penggunaan AWS Elastic Fabric Adapter (EFA) di cluster Amazon EKS. EFA adalah perangkat jaringan yang menyediakan komunikasi latensi rendah dan throughput tinggi antar instance dalam sebuah cluster. Diperlukan saat menggunakan jenis instans yang didukung EFA.
Untuk informasi lebih lanjut tentang prosedur instalasi menggunakan bagan Helm yang disediakan, lihat file README di repositori CLI SageMaker HyperPod