Instal paket di kluster Amazon EKS menggunakan Helm - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Instal paket di kluster Amazon EKS menggunakan Helm

Sebelum membuat SageMaker HyperPod cluster dan melampirkannya ke cluster Amazon EKS, Anda harus menginstal paket menggunakan Helm, manajer paket untuk Kubernetes. Helm adalah alat sumber terbuka untuk menyiapkan proses instalasi untuk klaster Kubernetes. Ini memungkinkan otomatisasi dan perampingan instalasi ketergantungan dan menyederhanakan berbagai pengaturan yang diperlukan untuk mempersiapkan kluster Amazon EKS sebagai orkestrator (bidang kontrol) untuk sebuah cluster. SageMaker HyperPod

Tim SageMaker HyperPod layanan menyediakan paket bagan Helm, yang menggabungkan dependensi kunci seperti plug-in perangkat/EFA, plug-in, Operator Pelatihan Kubeflow, dan konfigurasi izin terkait.

penting

Langkah instalasi helm ini adalah langkah yang diperlukan. Kegagalan untuk mengonfigurasi klaster Amazon EKS Anda menggunakan bagan Helm yang disediakan dapat mengakibatkan SageMaker HyperPod klaster tidak berfungsi dengan benar atau proses pembuatan gagal sepenuhnya. Nama aws-hyperpod namespace tidak dapat diubah.

  1. Instal Helm di mesin lokal Anda.

  2. Unduh bagan Helm yang disediakan oleh SageMaker HyperPod terletak di helm_chart/HyperPodHelmChart dalam repositori SageMaker HyperPod CLI.

    git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
  3. Perbarui dependensi bagan Helm, pratinjau perubahan yang akan dilakukan pada klaster Kubernetes Anda, dan instal bagan Helm.

    helm dependencies update HyperPodHelmChart
    helm install hyperpod-dependencies HyperPodHelmChart --dry-run
    helm install hyperpod-dependencies HyperPodHelmChart

Singkatnya, instalasi Helm menyiapkan berbagai komponen untuk klaster Amazon EKS Anda, termasuk penjadwalan pekerjaan dan antrian (Kueue), manajemen penyimpanan, integrasi, dan Kubeflow. MLflow Selain itu, bagan menginstal komponen berikut untuk diintegrasikan dengan fitur ketahanan SageMaker HyperPod cluster, yang merupakan komponen yang diperlukan.

  • Agen pemantauan kesehatan — Ini menginstal agen pemantauan kesehatan yang disediakan oleh. SageMaker HyperPod Ini diperlukan jika Anda ingin agar HyperPod cluster Anda dipantau. Agen pemantauan kesehatan disediakan sebagai gambar Docker sebagai berikut. Dalam yang disediakan values.yaml dalam bagan Helm, gambar sudah diatur sebelumnya. Agen mendukung instance dan Trainium-accelerator-based instance berbasis GPU (trn1,,). trn1n inf2 Itu diinstal ke aws-hyperpod namespace.

    590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
  • Pemeriksaan kesehatan mendalam - Ini mengaturClusterRole, a ServiceAccount (deep-health-check-service-account) di aws-hyperpod namespace, dan a ClusterRoleBinding untuk mengaktifkan fitur pemeriksaan kesehatan SageMaker HyperPod mendalam. Untuk informasi selengkapnya tentang file Kubernetes RBAC untuk pemeriksaan kesehatan mendalam, lihat file konfigurasi di deep-health-check-rbac.yamlrepositori CLI. SageMaker HyperPod GitHub

  • job-auto-restart- Ini mengaturClusterRole, a ServiceAccount (job-auto-restart) di aws-hyperpod namespace, dan aClusterRoleBinding, untuk mengaktifkan fitur restart otomatis untuk pekerjaan PyTorch pelatihan di. SageMaker HyperPod Untuk informasi selengkapnya tentang file Kubernetes RBACjob-auto-restart, lihat file konfigurasi di job-auto-restart-rbac.yamlrepositori CLI. SageMaker HyperPod GitHub

  • Operator MPI Kubeflow — Operator MPI adalah operator Kubernetes yang menyederhanakan menjalankan beban kerja Machine Learning (ML) dan High-Performance Computing (HPC) terdistribusi menggunakan Message Passing Interface (MPI) pada klaster Kubernetes. Ini menginstal MPI Operator v0.5. Itu diinstal ke mpi-operator namespace.

  • nvidia-device-plugin— Ini adalah plug-in perangkat Kubernetes yang memungkinkan Anda mengekspos NVIDIA secara otomatis GPUs untuk dikonsumsi oleh kontainer di cluster Amazon EKS Anda. Hal ini memungkinkan Kubernetes untuk mengalokasikan dan menyediakan akses ke yang diminta GPUs untuk kontainer itu. Diperlukan saat menggunakan tipe instance dengan GPU.

  • neuron-device-plugin— Ini adalah plug-in perangkat Kubernetes yang memungkinkan Anda mengekspos chip AWS Inferentia secara otomatis untuk dikonsumsi oleh kontainer di cluster Amazon EKS Anda. Hal ini memungkinkan Kubernetes untuk mengakses dan memanfaatkan chip AWS Inferentia pada node cluster. Diperlukan saat menggunakan tipe instance Neuron.

  • aws-efa-k8s-device-plugin- Ini adalah plug-in perangkat Kubernetes yang memungkinkan penggunaan AWS Elastic Fabric Adapter (EFA) di cluster Amazon EKS. EFA adalah perangkat jaringan yang menyediakan komunikasi latensi rendah dan throughput tinggi antar instance dalam sebuah cluster. Diperlukan saat menggunakan jenis instans yang didukung EFA.

Untuk informasi lebih lanjut tentang prosedur instalasi menggunakan bagan Helm yang disediakan, lihat file README di repositori CLI SageMaker HyperPod .