Rete - Amazon EKS

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Rete

Prendi in considerazione una maggiore larghezza di banda di rete o un adattatore Elastic Fabric per applicazioni con comunicazioni tra nodi elevate

Per carichi di lavoro di formazione distribuiti su Amazon EKS con elevate esigenze di comunicazione tra nodi, prendi in considerazione la possibilità di selezionare istanze con una larghezza di banda di rete maggiore o Elastic Fabric Adapter (EFA). Prestazioni di rete insufficienti possono ostacolare il trasferimento dei dati, rallentando le attività di machine learning come l'addestramento distribuito su più GPU. Tieni presente che i carichi di lavoro di inferenza in genere non hanno un'elevata comunicazione tra i nodi.

Esempio

Ad esempio, utilizzando Karpenter:

apiVersion: v1 kind: Pod metadata: name: ml-workload spec: nodeSelector: karpenter.k8s.aws/instance-network-bandwidth: "100000" # 100 Gbps in Mbps node.kubernetes.io/instance-type: p5.48xlarge # EFA-enabled instance containers: - name: training-job image: `763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference:2.6.0-gpu-py312-cu124-ubuntu22.04-ec2-v1.6` resources: limits: vpc.amazonaws.com/efa: 1 # Requires EFA device plugin

Assicurati che strumenti come MPI e NCCL siano installati nell'immagine del tuo container per sfruttare EFA per i lavori di formazione.

Aumenta il numero di indirizzi IP disponibili per consentire tempi di avvio dei pod più rapidi

In EKS, ogni pod necessita di un indirizzo IP dal blocco CIDR VPC. Man mano che il cluster si espande con più nodi e pod, si rischia l'esaurimento degli indirizzi IP o il rallentamento delle prestazioni, ma l'abilitazione della delega dei prefissi può mitigare questi problemi preallocando gli intervalli IP e riducendo le chiamate EC2 API, con conseguenti tempi di avvio dei pod più rapidi e una migliore scalabilità.

L'abilitazione della delega dei prefissi dopo la creazione del cluster consente a VPC Container Network Interface (CNI) di assegnare prefissi IP (/28, ciascuno con 16 indirizzi IP) alle interfacce di rete sulle istanze. EC2 Ciò significa che ogni nodo può supportare più pod, riducendo il rischio di carenze di IP. Ad esempio, in un'c5.4xlargeistanza, puoi supportare fino a 110 pod con delega di prefisso.

Sebbene la delega dei prefissi sia fondamentale per ottimizzare l'utilizzo dell'IP in ambienti con molti pod di piccole dimensioni, i AI/ML carichi di lavoro spesso utilizzano un numero inferiore di pod più grandi (ad esempio, un pod per GPU). L'abilitazione della delega dei prefissi consente a VPC CNI di preallocare un prefisso per un avvio più rapido del pod mantenendo un pool caldo. Ciò significa che gli indirizzi IP sono immediatamente disponibili, riducendo il tempo necessario per l'inizializzazione dei pod rispetto all'allocazione su richiesta in modalità senza prefisso. In questi casi, il risparmio di IP derivante dall'abilitazione della delega dei prefissi offre vantaggi in termini di prestazioni per i carichi di lavoro. AI/ML Riducendo il numero di chiamate EC2 API necessarie per la configurazione degli indirizzi IP e la preallocazione degli intervalli IP, l'utilizzo della delega di prefissi consente tempi di avvio dei pod più rapidi, il che è particolarmente utile per scalare rapidamente i carichi di lavoro. AI/ML

Per abilitare la delega dei prefissi:

kubectl set env daemonset/aws-node -n kube-system ENABLE_PREFIX_DELEGATION=true

Garantisci una pianificazione adeguata delle sottoreti VPC per evitare l'esaurimento degli indirizzi IP, specialmente nelle implementazioni di grandi dimensioni, e gestisci i blocchi CIDR per evitare sovrapposizioni. VPCs Per ulteriori informazioni, consulta Ottimizzazione dell'utilizzo degli indirizzi IP e Assegnazione di più indirizzi IP ai nodi Amazon EKS con prefissi.