Kelola perangkat keras di Amazon EKS - Amazon EKS

Bantu tingkatkan halaman ini

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kelola perangkat keras di Amazon EKS

Amazon EKS mendukung dua mekanisme Kubernetes untuk mengelola perangkat keras khusus di kluster EKS: Dynamic Resource Allocation (DRA) dan plugin perangkat. Kedua mekanisme memungkinkan beban kerja untuk mengakses akselerator perangkat keras seperti chip NVIDIA GPUs dan AWS Trainium, dan perangkat jaringan berkinerja tinggi seperti Elastic Fabric Adapter (EFA). Disarankan untuk menggunakan driver DRA untuk penerapan baru dengan Kubernetes versi 1.34 dan yang lebih baru, karena DRA menyediakan pemilihan perangkat yang lebih kaya, penjadwalan sadar topologi, dan kemampuan berbagi perangkat yang tidak dimungkinkan dengan plugin perangkat.

Referensikan dokumentasi Kubernetes untuk Dynamic Resource Allocation dan plugin perangkat untuk informasi umum tentang dua fitur Kubernetes ini.

Alokasi Sumber Daya Dinamis vs plugin perangkat

Plugin perangkat Kubernetes telah menjadi mekanisme utama untuk mengekspos perangkat keras khusus ke beban kerja Kubernetes. Plugin perangkat mengiklankan perangkat sebagai sumber daya tambahan (misalnya, nvidia.com/gpu atauaws.amazon.com/neuroncore) yang Anda minta dalam permintaan dan batasan sumber daya kontainer. Sementara plugin perangkat didukung dan digunakan secara luas, mereka memiliki keterbatasan:

  • Perangkat diminta sebagai jumlah bilangan bulat buram tanpa pemfilteran berbasis atribut.

  • Tidak ada dukungan untuk berbagi perangkat antara kontainer atau Pod.

  • Tidak ada alokasi sadar topologi ekspresif di seluruh jenis perangkat.

  • Ekstensi penjadwal khusus sering diperlukan untuk penempatan cerdas.

Dynamic Resource Allocation (DRA) adalah fitur Kubernetes yang tersedia secara umum di Kubernetes versi 1.34 yang mengatasi keterbatasan ini. Dengan DRA, driver perangkat mempublikasikan atribut perangkat kaya ke penjadwal Kubernetes melalui objek. ResourceSlice Anda meminta perangkat yang menggunakan ResourceClaim dan ResourceClaimTemplate objek yang mereferensikan DeviceClass kategori.

DRA memungkinkan:

  • Pemilihan perangkat berbasis atribut menggunakan ekspresi Common Expression Language (CEL).

  • Alokasi sadar topologi yang memastikan perangkat ditempatkan bersama pada sakelar atau domain NUMA yang sama. PCIe

  • Berbagi perangkat antara beberapa kontainer atau Pod melalui ResourceClaim referensi bersama.

  • Penjadwalan berbasis kendala yang menyelaraskan berbagai jenis perangkat

Driver DRA untuk Amazon EKS

Driver DRA berikut biasanya digunakan untuk mengelola perangkat keras khusus di cluster Amazon EKS.

Pengemudi Neuron DRA

Driver Neuron DRA mengelola alokasi perangkat AWS Trainium dan AWS Inferentia2 dengan penjadwalan sadar topologi, alokasi subset perangkat yang terhubung, dan konfigurasi Logical (LNC), tanpa memerlukan ekstensi penjadwal khusus. NeuronCore

Pengemudi NVIDIA DRA

Driver NVIDIA DRA GPUs memungkinkan alokasi fleksibel dan konfigurasi ulang dinamis NVIDIA GPUs, termasuk dukungan untuk ComputeDomain sumber daya untuk beban kerja Multi-Node NVLink (MNNVL) pada instans EC2 Grace-Blackwell. Untuk informasi lebih lanjut tentang penggunaan ComputeDomains dengan instans EC2 Grace-Blackwell, lihat. Gunakan P6e- dengan GB200 UltraServers Amazon EKS

Plugin perangkat untuk Amazon EKS

Plugin perangkat berikut biasanya digunakan untuk mengelola perangkat keras khusus di kluster Amazon EKS.

Plugin perangkat EFA

Plugin perangkat EFA menemukan semua perangkat EFA yang tersedia di setiap node dan mengiklankan perangkat EFA sebagai sumber daya yang diperluas. vpc.amazonaws.com/efa

Plugin perangkat neuron

Plugin perangkat Neuron mengekspos perangkat keras Neuron sebagai aws.amazon.com/neuroncore dan sumber daya yang aws.amazon.com/neuron diperluas. Ini menemukan perangkat Neuron yang tersedia di setiap node, mengiklankannya sebagai sumber daya yang dapat dialokasikan, dan mengelola siklus hidupnya.

Plugin perangkat NVIDIA

Plugin perangkat NVIDIA mengiklankan NVIDIA GPUs sebagai sumber daya yang nvidia.com/gpu diperluas dan melacak kesehatan. GPUs

Pertimbangan-pertimbangan

Sebelum menggunakan driver DRA di Amazon EKS, tinjau pertimbangan berikut:

  • DRA tersedia di Amazon EKS dengan Kubernetes versi 1.33 ke atas, tetapi direkomendasikan untuk Kubernetes versi 1.34 dan yang lebih baru karena masalah Kubernetes hulu. Bidang kontrol cluster dan node Anda harus menjalankan versi Kubernetes yang mendukung DRA.

  • DRA saat ini tidak kompatibel dengan komputasi yang disediakan Karpenter atau EKS Auto Mode. Anda harus menggunakan grup node terkelola EKS atau node yang dikelola sendiri dengan driver DRA.

  • Driver DRA dan plugin perangkat untuk jenis perangkat yang sama tidak boleh berjalan secara bersamaan pada node yang sama. Copot pemasangan plugin perangkat sebelum menginstal driver DRA yang sesuai, atau gunakan pada node terpisah. Lihat upstream Kubernetes KEP-5004 untuk pembaruan tentang driver DRA dan kompatibilitas plugin perangkat.

  • DRA menggunakan sumber daya Kubernetes API (ResourceClaim,ResourceClaimTemplate,DeviceClass) yang berbeda dari plugin perangkat (,). resource.limits resource.requests Migrasi dari plugin perangkat ke DRA memerlukan pembaruan spesifikasi beban kerja Anda.

  • Plugin perangkat tetap didukung penuh untuk semua versi Kubernetes. Jika klaster Anda menjalankan versi Kubernetes lebih awal dari 1.34, jika Anda menggunakan Karpenter atau EKS Auto Mode, atau jika Anda menggunakan Bottlerocket, lanjutkan menggunakan plugin perangkat.

Topik