Gunakan akselerasi yang dioptimalkan EKS AMIs untuk instans GPU - Amazon EKS

Bantu tingkatkan halaman ini

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Gunakan akselerasi yang dioptimalkan EKS AMIs untuk instans GPU

Amazon EKS mendukung Amazon Linux dan AMIs Bottlerocket yang dioptimalkan EKS untuk instans GPU. Akselerasi yang dioptimalkan EKS AMIs menyederhanakan menjalankan beban kerja AI dan MLdi kluster EKS dengan menyediakan image sistem operasi tervalidasi yang telah dibuat sebelumnya untuk tumpukan Kubernetes yang dipercepat. Selain komponen inti Kubernetes yang disertakan dalam standar yang dioptimalkan EKS AMIs, akselerasi yang dioptimalkan EKS AMIs mencakup modul kernel dan driver yang diperlukan untuk menjalankan GPU dan instans NVIDIA, dan P EC2 instans GPU Inferentia G dan Trainium di AWS kluster EKS. EC2

Tabel di bawah ini menunjukkan tipe instans GPU yang didukung untuk setiap varian AMI akselerasi yang dioptimalkan EKS. Lihat rilis AL2023 yang dioptimalkan EKS dan rilis Bottlerocket untuk pembaruan terbaru pada varian GitHub AMI.

Varian EKS AMI EC2 jenis contoh

AL2023 x86_64 NVIDIA

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, gr6, g6, g6e, g6f, gr6f, g5, g4dn

AL2023 ARM NVIDIA

p6e-gb200, g5g

AL2023 x86_64 Neuron

inf1, inf2, trn1, trn2

Bottlerocket x86_64 aws-k8s-nvidia

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, gr6, g6, g6e, g6f, gr6f, g5, g4dn

Bottlerocket aarch64/arm64 aws-k8s-nvidia

g5g

Bottlerocket x86_64 aws-k8s

inf1, inf2, trn1, trn2

NVIDIA yang dioptimalkan EKS AMIs

Dengan menggunakan NVIDIA yang dioptimalkan EKS AMIs, Anda menyetujui Perjanjian Lisensi Pengguna Akhir Cloud (EULA) NVIDIA.

Untuk menemukan NVIDIA terbaru yang dioptimalkan EKS AMIs, lihat Ambil AMI Amazon Linux yang direkomendasikan IDs dan. Ambil Bottlerocket AMI yang direkomendasikan IDs

Saat menggunakan Amazon Elastic Fabric Adapter (EFA) dengan AL2 023 atau Bottlerocket NVIDIA yang dioptimalkan EKS AMIs, Anda harus menginstal plugin perangkat EFA secara terpisah. Untuk informasi selengkapnya, lihat Jalankan pelatihan pembelajaran mesin di Amazon EKS dengan Adaptor Kain Elastis.

EKS AL2 023 NVIDIA AMIs

Saat menggunakan operator GPU NVIDIA dengan AL2 023 NVIDIA yang dioptimalkan EKS AMIs, Anda harus menonaktifkan instalasi operator driver dan toolkit, karena ini sudah termasuk dalam EKS. AMIs AL2023 NVIDIA yang dioptimalkan EKS AMIs tidak termasuk plugin perangkat NVIDIA Kubernetes atau driver NVIDIA DRA, dan ini harus diinstal secara terpisah. Untuk informasi selengkapnya, lihat Instal plugin perangkat NVIDIA Kubernetes.

Selain komponen EKS AMI standar, AL2 023 NVIDIA yang dioptimalkan EKS AMIs menyertakan komponen-komponen berikut.

  • Pengemudi NVIDIA

  • Driver mode pengguna NVIDIA CUDA

  • Toolkit kontainer NVIDIA

  • Manajer kain NVIDIA

  • NVIDIA bertahan

  • Pengemudi NVIDIA IMEX

  • Manajer NVLink Subnet NVIDIA

  • EFA minimal (modul kernel dan rdma-core)

Untuk detail tentang driver mode pengguna NVIDIA CUDA dan CUDA yang runtime/libraries digunakan dalam wadah aplikasi, lihat dokumentasi NVIDIA. Versi CUDA yang ditampilkan nvidia-smi adalah versi driver mode pengguna NVIDIA CUDA yang diinstal pada host, yang harus kompatibel dengan CUDA yang runtime/libraries digunakan dalam wadah aplikasi.

AL2023 NVIDIA yang dioptimalkan EKS AMIs mendukung kernel 6.12 untuk Kubernetes versi 1.33 ke atas, dan driver NVIDIA versi 580 untuk semua versi Kubernetes. Driver NVIDIA 580 diperlukan untuk menggunakan CUDA 13+.

Lihat rilis AL2 023 yang dioptimalkan EKS GitHub untuk detail versi komponen yang disertakan dalam. AMIs Lihat skrip instalasi EKS AL2 023 NVIDIA AMI dan skrip pemuatan kernel untuk detail tentang bagaimana EKS AMIs mengonfigurasi dependensi NVIDIA. Anda dapat menemukan daftar paket yang diinstal dan versinya pada EC2 instance yang sedang berjalan dengan dnf list installed perintah.

Saat membangun kustom AMIs dengan EKS yang dioptimalkan AMIs sebagai basis, tidak disarankan atau didukung untuk menjalankan peningkatan sistem operasi (mis. dnf upgrade) atau tingkatkan salah satu paket Kubernetes atau GPU yang disertakan dalam EKS yang dioptimalkan AMIs, karena ini berisiko merusak kompatibilitas komponen. Jika Anda memutakhirkan sistem operasi atau paket yang disertakan dalam EKS yang dioptimalkan AMIs, disarankan untuk menguji secara menyeluruh dalam lingkungan pengembangan atau pementasan sebelum menerapkan ke produksi.

Saat membuat kustom AMIs untuk instance GPU, disarankan untuk membuat kustom terpisah AMIs untuk setiap pembuatan tipe instans dan keluarga yang akan Anda jalankan. Driver dan paket penginstalan AMIs selektif yang dioptimalkan EKS yang dioptimalkan secara selektif saat runtime berdasarkan generasi dan keluarga tipe instans yang mendasarinya. Untuk informasi selengkapnya, lihat skrip EKS AMI untuk instalasi dan runtime.

EKS Bottlerocket NVIDIA AMIs

Saat menggunakan operator GPU NVIDIA dengan Bottlerocket NVIDIA yang dioptimalkan EKS AMIs, Anda harus menonaktifkan instalasi operator driver, toolkit, dan plugin perangkat karena ini sudah termasuk dalam EKS. AMIs

Selain komponen EKS AMI standar, NVIDIA Bottlerocket yang dioptimalkan EKS mencakup komponen-komponen berikut. AMIs Ketergantungan minimal untuk EFA (modul kernel dan rdma-core) dipasang di semua varian Bottlerocket.

  • Plugin perangkat NVIDIA Kubernetes

  • Pengemudi NVIDIA

  • Driver mode pengguna NVIDIA CUDA

  • Toolkit kontainer NVIDIA

  • Manajer kain NVIDIA

  • NVIDIA bertahan

  • Pengemudi NVIDIA IMEX

  • Manajer NVLink Subnet NVIDIA

  • Manajer NVIDIA MIG

Untuk detail tentang driver mode pengguna NVIDIA CUDA dan CUDA yang runtime/libraries digunakan dalam wadah aplikasi, lihat dokumentasi NVIDIA. Versi CUDA yang ditampilkan nvidia-smi adalah versi driver mode pengguna NVIDIA CUDA yang diinstal pada host, yang harus kompatibel dengan CUDA yang runtime/libraries digunakan dalam wadah aplikasi.

Lihat Informasi Versi Bottlerocket di dokumentasi Bottlerocket untuk detail tentang paket yang diinstal dan versinya. Bottlerocket NVIDIA yang dioptimalkan EKS AMIs mendukung kernel 6.12 untuk Kubernetes versi 1.33 ke atas, dan driver NVIDIA versi 580 untuk Kubernetes versi 1.34 ke atas. Driver NVIDIA 580 diperlukan untuk menggunakan CUDA 13+.

Neuron yang dioptimalkan EKS AMIs

Untuk detail tentang cara menjalankan beban kerja pelatihan dan inferensi menggunakan Neuron dengan Amazon EKS, lihat referensi berikut:

Untuk menemukan Neuron terbaru yang dioptimalkan EKS AMIs, lihat Ambil AMI Amazon Linux yang direkomendasikan IDs dan. Ambil Bottlerocket AMI yang direkomendasikan IDs

Saat menggunakan Amazon Elastic Fabric Adapter (EFA) dengan AL2 023 atau Bottlerocket Neuron yang dioptimalkan EKS AMIs, Anda harus menginstal plugin perangkat EFA secara terpisah. Untuk informasi selengkapnya, lihat Jalankan pelatihan pembelajaran mesin di Amazon EKS dengan Adaptor Kain Elastis.

EKS AL2 023 Neuron AMIs

Neuron AL2 023 yang dioptimalkan EKS AMIs tidak menyertakan plugin perangkat Neuron Kubernetes atau ekstensi penjadwal Neuron Kubernetes, dan ini harus diinstal secara terpisah. Untuk informasi selengkapnya, lihat Instal plugin perangkat Neuron Kubernetes.

Selain komponen EKS AMI standar, Neuron AL2 023 yang dioptimalkan EKS AMIs mencakup komponen-komponen berikut.

  • Pengemudi neuron (aws-neuronx-dkms)

  • Alat neuron (aws-neuronx-tools)

  • EFA minimal (modul kernel dan rdma-core)

Lihat skrip instalasi EKS AL2 023 Neuron AMI untuk detail tentang bagaimana EKS AMIs mengonfigurasi dependensi Neuron. Lihat rilis AL2 023 yang dioptimalkan EKS GitHub untuk melihat versi komponen yang disertakan dalam. AMIs Anda dapat menemukan daftar paket yang diinstal dan versinya pada EC2 instance yang sedang berjalan dengan dnf list installed perintah.

Neuron Roket Botol EKS AMIs

Varian Bottlerocket standar (aws-k8s) mencakup dependensi Neuron yang secara otomatis terdeteksi dan dimuat saat berjalan pada instance Inferentia atau Trainium. AWS EC2

Bottlerocket yang dioptimalkan EKS AMIs tidak menyertakan plugin perangkat Neuron Kubernetes atau ekstensi penjadwal Neuron Kubernetes, dan ini harus diinstal secara terpisah. Untuk informasi selengkapnya, lihat Instal plugin perangkat Neuron Kubernetes.

Selain komponen EKS AMI standar, Neuron Bottlerocket yang dioptimalkan EKS mencakup komponen-komponen berikut. AMIs

  • Pengemudi neuron (aws-neuronx-dkms)

  • EFA minimal (modul kernel dan rdma-core)

Saat menggunakan Bottlerocket yang dioptimalkan EKS AMIs dengan instance Neuron, berikut ini harus dikonfigurasi dalam data pengguna Bottlerocket. Pengaturan ini memungkinkan wadah untuk mengambil kepemilikan perangkat Neuron yang dipasang berdasarkan runAsGroup nilai runAsUser dan yang disediakan dalam spesifikasi beban kerja. Untuk informasi lebih lanjut tentang dukungan Neuron di Bottlerocket, lihat Quickstart on EKS readme on. GitHub

[settings] [settings.kubernetes] device-ownership-from-security-context = true

Lihat changelog kit kernel Bottlerocket untuk informasi tentang versi driver Neuron yang disertakan dalam Bottlerocket yang dioptimalkan EKS. AMIs