Bantu tingkatkan halaman ini
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kelola perangkat keras di Amazon EKS
Amazon EKS mendukung dua mekanisme Kubernetes untuk mengelola perangkat keras khusus di kluster EKS: Dynamic Resource Allocation (DRA) dan plugin perangkat. Kedua mekanisme memungkinkan beban kerja untuk mengakses akselerator perangkat keras seperti chip NVIDIA GPUs dan AWS Trainium, dan perangkat jaringan berkinerja tinggi seperti Elastic Fabric Adapter (EFA). Disarankan untuk menggunakan driver DRA untuk penerapan baru dengan Kubernetes versi 1.34 dan yang lebih baru, karena DRA menyediakan pemilihan perangkat yang lebih kaya, penjadwalan sadar topologi, dan kemampuan berbagi perangkat yang tidak dimungkinkan dengan plugin perangkat.
Referensikan dokumentasi Kubernetes untuk Dynamic Resource Allocation
Alokasi Sumber Daya Dinamis vs plugin perangkat
Plugin perangkat Kubernetes telah menjadi mekanisme utama untuk mengekspos perangkat keras khusus ke beban kerja Kubernetes. Plugin perangkat mengiklankan perangkat sebagai sumber daya tambahan (misalnya, nvidia.com/gpu atauaws.amazon.com/neuroncore) yang Anda minta dalam permintaan dan batasan sumber daya kontainer. Sementara plugin perangkat didukung dan digunakan secara luas, mereka memiliki keterbatasan:
-
Perangkat diminta sebagai jumlah bilangan bulat buram tanpa pemfilteran berbasis atribut.
-
Tidak ada dukungan untuk berbagi perangkat antara kontainer atau Pod.
-
Tidak ada alokasi sadar topologi ekspresif di seluruh jenis perangkat.
-
Ekstensi penjadwal khusus sering diperlukan untuk penempatan cerdas.
Dynamic Resource Allocation (DRA) adalah fitur Kubernetes yang tersedia secara umum di Kubernetes versi 1.34 yang mengatasi keterbatasan ini. Dengan DRA, driver perangkat mempublikasikan atribut perangkat kaya ke penjadwal Kubernetes melalui objek. ResourceSlice Anda meminta perangkat yang menggunakan ResourceClaim dan ResourceClaimTemplate objek yang mereferensikan DeviceClass kategori.
DRA memungkinkan:
-
Pemilihan perangkat berbasis atribut menggunakan ekspresi Common Expression Language (CEL)
. -
Alokasi sadar topologi yang memastikan perangkat ditempatkan bersama pada sakelar atau domain NUMA yang sama. PCIe
-
Berbagi perangkat antara beberapa kontainer atau Pod melalui
ResourceClaimreferensi bersama. -
Penjadwalan berbasis kendala yang menyelaraskan berbagai jenis perangkat
Driver DRA untuk Amazon EKS
Driver DRA berikut biasanya digunakan untuk mengelola perangkat keras khusus di cluster Amazon EKS.
- Pengemudi Neuron DRA
-
Driver Neuron DRA mengelola alokasi perangkat AWS Trainium dan AWS Inferentia2 dengan penjadwalan sadar topologi, alokasi subset perangkat yang terhubung, dan konfigurasi Logical (LNC), tanpa memerlukan ekstensi penjadwal khusus. NeuronCore
- Pengemudi NVIDIA DRA
-
Driver NVIDIA DRA GPUs
memungkinkan alokasi fleksibel dan konfigurasi ulang dinamis NVIDIA GPUs, termasuk dukungan untuk ComputeDomainsumber daya untuk beban kerja Multi-Node NVLink (MNNVL) pada instans EC2 Grace-Blackwell. Untuk informasi lebih lanjut tentang penggunaanComputeDomainsdengan instans EC2 Grace-Blackwell, lihat. Gunakan P6e- dengan GB200 UltraServers Amazon EKS
Plugin perangkat untuk Amazon EKS
Plugin perangkat berikut biasanya digunakan untuk mengelola perangkat keras khusus di kluster Amazon EKS.
- Plugin perangkat EFA
-
Plugin perangkat EFA menemukan semua perangkat EFA yang tersedia di setiap node dan mengiklankan perangkat EFA sebagai sumber daya yang diperluas.
vpc.amazonaws.com/efa - Plugin perangkat neuron
-
Plugin perangkat Neuron
mengekspos perangkat keras Neuron sebagai aws.amazon.com/neuroncoredan sumber daya yangaws.amazon.com/neurondiperluas. Ini menemukan perangkat Neuron yang tersedia di setiap node, mengiklankannya sebagai sumber daya yang dapat dialokasikan, dan mengelola siklus hidupnya. - Plugin perangkat NVIDIA
-
Plugin perangkat NVIDIA
mengiklankan NVIDIA GPUs sebagai sumber daya yang nvidia.com/gpudiperluas dan melacak kesehatan. GPUs
Pertimbangan-pertimbangan
Sebelum menggunakan driver DRA di Amazon EKS, tinjau pertimbangan berikut:
-
DRA tersedia di Amazon EKS dengan Kubernetes versi 1.33 ke atas, tetapi direkomendasikan untuk Kubernetes versi 1.34 dan yang lebih baru karena masalah Kubernetes hulu.
Bidang kontrol cluster dan node Anda harus menjalankan versi Kubernetes yang mendukung DRA. -
DRA saat ini tidak kompatibel dengan komputasi yang disediakan Karpenter atau EKS Auto Mode. Anda harus menggunakan grup node terkelola EKS atau node yang dikelola sendiri dengan driver DRA.
-
Driver DRA dan plugin perangkat untuk jenis perangkat yang sama tidak boleh berjalan secara bersamaan pada node yang sama. Copot pemasangan plugin perangkat sebelum menginstal driver DRA yang sesuai, atau gunakan pada node terpisah. Lihat upstream Kubernetes KEP-5004
untuk pembaruan tentang driver DRA dan kompatibilitas plugin perangkat. -
DRA menggunakan sumber daya Kubernetes API (
ResourceClaim,ResourceClaimTemplate,DeviceClass) yang berbeda dari plugin perangkat (,).resource.limitsresource.requestsMigrasi dari plugin perangkat ke DRA memerlukan pembaruan spesifikasi beban kerja Anda. -
Plugin perangkat tetap didukung penuh untuk semua versi Kubernetes. Jika klaster Anda menjalankan versi Kubernetes lebih awal dari 1.34, jika Anda menggunakan Karpenter atau EKS Auto Mode, atau jika Anda menggunakan Bottlerocket, lanjutkan menggunakan plugin perangkat.