Usa l'accelerazione ottimizzata per EKS per le istanze AMIs GPU - Amazon EKS

Contribuisci a migliorare questa pagina

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Per contribuire a questa guida per l'utente, scegli il GitHub link Modifica questa pagina nel riquadro destro di ogni pagina.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Usa l'accelerazione ottimizzata per EKS per le istanze AMIs GPU

Amazon EKS supporta Amazon Linux e Bottlerocket AMIs per istanze GPU ottimizzati per EKS. L'accelerato ottimizzato per EKS AMIs semplifica l'esecuzione di carichi di lavoro AI e ML nei cluster EKS fornendo immagini del sistema operativo predefinite e convalidate per lo stack Kubernetes accelerato. Oltre ai componenti principali di Kubernetes inclusi nello standard ottimizzato per EKS AMIs, l'accelerato ottimizzato per EKS AMIs include i moduli e i driver del kernel necessari per eseguire la GPU G e P EC2 le istanze NVIDIA e le EC2 istanze AWS GPU Inferentia e Trainium nei cluster EKS.

La tabella seguente mostra i tipi di istanza GPU supportati per ogni variante AMI accelerata ottimizzata per EKS. Consulta le versioni AL2023 ottimizzate per EKS e le versioni Bottlerocket su GitHub per gli ultimi aggiornamenti alle varianti AMI.

Variante AMI EKS EC2 tipi di istanze

AL2023 x86_64 NVIDIA

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, gr6, g6, g6e, g6f, gr6f, g5, g4dn

AL2203 RAM NVIDIA

p6e-gb200, 5g

AL2Neurone 023 x86_64

inf1, inf2, trn1, trn2

Portabottiglie x86_64 aws-k8s-nvidia

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, gr6, g6, g6e, g6f, gr6f, g5, g4dn

Portaborraccia aarch64/arm64 aws-k8s-nvidia

g 5 g

Portaborraccia x86_64 aws-k8s

inf1, inf2, trn1, trn2

NVIDIA ottimizzata per EKS AMIs

Utilizzando NVIDIA ottimizzata per EKS AMIs, l'utente accetta il contratto di licenza per l'utente finale del cloud (EULA) di NVIDIA.

Per trovare la versione più recente di NVIDIA ottimizzata per EKS, consulta e. AMIs Recupera le AMI Amazon Linux consigliate IDs Recupero degli ID AMI Bottlerocket consigliati

Quando si utilizza Amazon Elastic Fabric Adaptor (EFA) con AL2 023 ottimizzato per EKS o Bottlerocket NVIDIA AMIs, è necessario installare il plug-in del dispositivo EFA separatamente. Per ulteriori informazioni, consulta Esecuzione dei corsi di machine learning su Amazon EKS con Elastic Fabric Adapter.

EKS 023 NVIDIA AL2 AMIs

Quando si utilizza l'operatore GPU NVIDIA con la scheda NVIDIA AL2 023 ottimizzata per EKS AMIs, è necessario disabilitare l'installazione da parte dell'operatore del driver e del toolkit, poiché questi sono già inclusi in EKS. AMIs Le versioni NVIDIA AL2 023 ottimizzate per EKS AMIs non includono il plug-in per dispositivi NVIDIA Kubernetes o il driver NVIDIA DRA, che devono essere installati separatamente. Per ulteriori informazioni, consulta Installa il plug-in per dispositivi NVIDIA Kubernetes.

Oltre ai componenti AMI EKS standard, la scheda NVIDIA AL2 023 ottimizzata per EKS AMIs include i seguenti componenti.

  • Driver NVIDIA

  • Driver in modalità utente NVIDIA CUDA

  • Toolkit per container NVIDIA

  • NVIDIA Fabric Manager

  • NVIDIA ha persistito

  • Driver NVIDIA IMEX

  • Gestore di sottorete NVIDIA NVLink

  • EFA minimal (modulo kernel e rdma-core)

Per i dettagli sul driver in modalità utente NVIDIA CUDA e sul CUDA runtime/libraries utilizzato nei contenitori delle applicazioni, consulta la documentazione NVIDIA. La versione CUDA mostrata nvidia-smi è la versione del driver in modalità utente NVIDIA CUDA installato sull'host, che deve essere compatibile con il CUDA utilizzato nei contenitori di applicazioni. runtime/libraries

Il kernel NVIDIA AL2 023 ottimizzato per EKS AMIs supporta il kernel 6.12 per le versioni 1.33 e successive di Kubernetes e la versione del driver NVIDIA 580 per tutte le versioni di Kubernetes. Il driver NVIDIA 580 è necessario per utilizzare CUDA 13+.

Consulta le versioni AL2023 ottimizzate per EKS su GitHub per i dettagli sulle versioni dei componenti incluse in. AMIs Consulta lo script di installazione dell'AMI NVIDIA EKS AL2 023 e lo script di caricamento del kernel per i dettagli su come EKS AMIs configura le dipendenze NVIDIA. Puoi trovare l'elenco dei pacchetti installati e delle relative versioni su un'istanza in esecuzione EC2 con il comando. dnf list installed

Quando si crea qualcosa di personalizzato AMIs con EKS ottimizzato AMIs come base, non è consigliato o supportato l'esecuzione di un aggiornamento del sistema operativo (ad es. dnf upgrade) o aggiorna uno qualsiasi dei pacchetti Kubernetes o GPU inclusi in EKS-Optimized, poiché ciò rischia di compromettere la compatibilità AMIs dei componenti. Se si esegue l'aggiornamento del sistema operativo o dei pacchetti inclusi nei pacchetti ottimizzati per EKS AMIs, si consiglia di eseguire test approfonditi in un ambiente di sviluppo o di gestione temporanea prima di passare alla produzione.

Quando si creano istanze GPU personalizzate AMIs , si consiglia di creare istanze personalizzate separate AMIs per ogni tipo di istanza, generazione e famiglia di istanze che verrà eseguita. La versione accelerata ottimizzata per EKS installa AMIs in modo selettivo driver e pacchetti in fase di esecuzione in base alla generazione e alla famiglia di istanze sottostanti. Per ulteriori informazioni, consulta gli script EKS AMI per l'installazione e il runtime.

EKS Bottlerocket NVIDIA AMIs

Quando si utilizza l'operatore GPU NVIDIA con Bottlerocket NVIDIA ottimizzato per EKS, è necessario disabilitare l'installazione da parte dell'operatore del driver AMIs, del toolkit e del plug-in del dispositivo poiché questi sono già inclusi in EKS. AMIs

Oltre ai componenti AMI EKS standard, il Bottlerocket NVIDIA AMIs ottimizzato per EKS include i seguenti componenti. Le dipendenze minime per EFA (modulo kernel e rdma-core) sono installate in tutte le varianti di Bottlerocket.

  • Plugin per dispositivi NVIDIA Kubernetes

  • Driver NVIDIA

  • Driver in modalità utente NVIDIA CUDA

  • Toolkit per container NVIDIA

  • NVIDIA Fabric Manager

  • NVIDIA ha persistito

  • Driver NVIDIA IMEX

  • Gestore di sottorete NVIDIA NVLink

  • Gestore NVIDIA MIG

Per i dettagli sul driver in modalità utente NVIDIA CUDA e sul CUDA runtime/libraries utilizzato nei contenitori delle applicazioni, consulta la documentazione NVIDIA. La versione CUDA mostrata nvidia-smi è la versione del driver in modalità utente NVIDIA CUDA installato sull'host, che deve essere compatibile con il CUDA utilizzato nei contenitori di applicazioni. runtime/libraries

Consulta le informazioni sulla versione di Bottlerocket nella documentazione di Bottlerocket per i dettagli sui pacchetti installati e sulle relative versioni. Il Bottlerocket NVIDIA ottimizzato per EKS AMIs supporta il kernel 6.12 per le versioni 1.33 e successive di Kubernetes e la versione del driver NVIDIA 580 per le versioni 1.34 e successive di Kubernetes. Il driver NVIDIA 580 è necessario per utilizzare CUDA 13+.

Neuron ottimizzato per EKS AMIs

Per i dettagli su come eseguire carichi di lavoro di addestramento e inferenza utilizzando Neuron con Amazon EKS, consulta i seguenti riferimenti:

Per trovare la versione più recente di Neuron ottimizzata per EKS, consulta e. AMIs Recupera le AMI Amazon Linux consigliate IDs Recupero degli ID AMI Bottlerocket consigliati

Quando usi Amazon Elastic Fabric Adaptor (EFA) con lo AL2 023 ottimizzato per EKS o Bottlerocket Neuron AMIs, devi installare il plug-in del dispositivo EFA separatamente. Per ulteriori informazioni, consulta Esecuzione dei corsi di machine learning su Amazon EKS con Elastic Fabric Adapter.

EKS 023 Neuron AL2 AMIs

I AL2 023 Neuron ottimizzati per EKS AMIs non includono il plug-in del dispositivo Neuron Kubernetes o l'estensione di pianificazione Neuron Kubernetes e devono essere installati separatamente. Per ulteriori informazioni, consulta Installa il plug-in del dispositivo Neuron Kubernetes.

Oltre ai componenti AMI EKS standard, lo AL2 023 Neuron ottimizzato per EKS AMIs include i seguenti componenti.

  • Driver Neuron () aws-neuronx-dkms

  • Strumenti per neuroni () aws-neuronx-tools

  • EFA minimal (modulo kernel e rdma-core)

Vedi lo script di installazione dell'AMI EKS AL2 023 Neuron per i dettagli su come EKS AMIs configura le dipendenze Neuron. Consulta le versioni AL2023 ottimizzate per EKS su GitHub per vedere le versioni dei componenti incluse in. AMIs È possibile trovare l'elenco dei pacchetti installati e delle relative versioni su un' EC2 istanza in esecuzione con il comando. dnf list installed

EKS Bottlerocket Neuron AMIs

Le varianti standard di Bottlerocket (aws-k8s) includono le dipendenze Neuron che vengono rilevate e caricate automaticamente durante l'esecuzione su istanze Inferentia o Trainium. AWS EC2

Il Bottlerocket ottimizzato per EKS AMIs non include il plug-in del dispositivo Neuron Kubernetes o l'estensione di pianificazione Neuron Kubernetes e questi devono essere installati separatamente. Per ulteriori informazioni, consulta Installa il plug-in del dispositivo Neuron Kubernetes.

Oltre ai componenti AMI EKS standard, il Bottlerocket Neuron AMIs ottimizzato per EKS include i seguenti componenti.

  • aws-neuronx-dkmsDriver Neuron ()

  • EFA minimal (modulo kernel e rdma-core)

Quando si utilizza Bottlerocket ottimizzato per EKS AMIs con istanze Neuron, è necessario configurare quanto segue nei dati utente di Bottlerocket. Questa impostazione consente al contenitore di assumere la proprietà del dispositivo Neuron montato in base ai valori e forniti nelle specifiche del carico di lavoro. runAsUser runAsGroup Per ulteriori informazioni sul supporto di Neuron in Bottlerocket, consultate il readme di Quickstart on EKS su. GitHub

[settings] [settings.kubernetes] device-ownership-from-security-context = true

Consulta il changelog del kit kernel Bottlerocket per informazioni sulla versione del driver Neuron inclusa nel Bottlerocket ottimizzato per EKS. AMIs