Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Réseaux
Envisagez une bande passante réseau plus élevée ou un adaptateur Elastic Fabric pour les applications nécessitant une communication inter-nœuds élevée
Pour les charges de travail de formation distribuées sur Amazon EKS nécessitant de fortes communications entre nœuds, pensez à sélectionner des instances dotées d'une bande passante réseau plus importante ou un adaptateur Elastic Fabric (EFA). Des performances réseau insuffisantes peuvent entraver le transfert de données et ralentir les tâches d'apprentissage automatique telles que la formation multiGPU distribuée. Notez que les charges de travail d'inférence ne présentent généralement pas un niveau élevé de communication entre les nœuds.
Exemple
Par exemple, en utilisant Karpenter :
apiVersion: v1 kind: Pod metadata: name: ml-workload spec: nodeSelector: karpenter.k8s.aws/instance-network-bandwidth: "100000" # 100 Gbps in Mbps node.kubernetes.io/instance-type: p5.48xlarge # EFA-enabled instance containers: - name: training-job image: `763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference:2.6.0-gpu-py312-cu124-ubuntu22.04-ec2-v1.6` resources: limits: vpc.amazonaws.com/efa: 1 # Requires EFA device plugin
Assurez-vous que des outils tels que MPI et NCCL sont installés dans l'image de votre conteneur afin de tirer parti de l'EFA pour les tâches de formation.
Augmentez le nombre d'adresses IP disponibles pour accélérer le lancement des pods
Dans EKS, chaque pod a besoin d'une adresse IP provenant du bloc d'adresse CIDR VPC. À mesure que votre cluster évolue avec un plus grand nombre de nœuds et de pods, vous risquez d'épuiser les adresses IP ou de ralentir les performances, mais l'activation de la délégation de préfixes peut atténuer ces problèmes en préallouant des plages d'adresses IP et en réduisant les appels d' EC2 API, ce qui permet d'accélérer les temps de lancement des pods et d'améliorer l'évolutivité.
L'activation de la délégation de préfixes après la création de votre cluster permet à l'interface réseau du conteneur VPC (CNI) d'attribuer des préfixes IP (/28, chacun donnant 16 adresses IP) aux interfaces réseau des instances. EC2 Cela signifie que chaque nœud peut prendre en charge un plus grand nombre de pods, réduisant ainsi le risque de pénurie d'adresses IP. Par exemple, sur une c5.4xlarge
instance, vous pouvez prendre en charge jusqu'à 110 pods avec délégation de préfixe.
Bien que la délégation de préfixes soit cruciale pour optimiser l'utilisation de l'IP dans les environnements comportant de nombreux petits pods, les AI/ML charges de travail utilisent souvent des pods moins nombreux et plus grands (par exemple, un pod par GPU). L'activation de la délégation de préfixes permet au VPC CNI de préallouer un préfixe pour accélérer le démarrage du pod en maintenant un pool de chaleur. Cela signifie que les adresses IP sont facilement disponibles, ce qui réduit le temps nécessaire à l'initialisation du pod par rapport à l'allocation à la demande en mode sans préfixe. Dans de tels cas, les économies d'adresse IP réalisées grâce à l'activation de la délégation de préfixes offrent des avantages en termes de performances pour les charges AI/ML de travail. En réduisant le nombre d'appels d' EC2 API requis pour la configuration des adresses IP et en préallouant des plages d'adresses IP, l'utilisation de la délégation de préfixes permet d'accélérer les temps de lancement des pods, ce qui est particulièrement avantageux pour faire évoluer rapidement les charges de travail. AI/ML
Pour activer la délégation de préfixes :
kubectl set env daemonset/aws-node -n kube-system ENABLE_PREFIX_DELEGATION=true
Assurez-vous de planifier correctement les sous-réseaux VPC afin d'éviter l'épuisement des adresses IP, en particulier lors de déploiements de grande envergure, et gérez les blocs CIDR pour éviter les chevauchements entre eux. VPCs Pour en savoir plus, consultez Optimisation de l'utilisation des adresses IP et attribution d'adresses IP supplémentaires aux nœuds Amazon EKS avec des préfixes.