Aidez à améliorer cette page
Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Pour contribuer à ce guide de l'utilisateur, cliquez sur le GitHub lien Modifier cette page sur qui se trouve dans le volet droit de chaque page.
Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Gérez les appareils matériels sur Amazon EKS
Amazon EKS prend en charge deux mécanismes Kubernetes pour gérer les périphériques matériels spécialisés dans les clusters EKS : l'allocation dynamique des ressources (DRA) et les plug-ins d'appareils. Les deux mécanismes permettent aux charges de travail d'accéder à des accélérateurs matériels tels que les puces NVIDIA GPUs et AWS Trainium, et à des périphériques réseau à hautes performances tels que Elastic Fabric Adapter (EFA). Il est recommandé d'utiliser les pilotes DRA pour les nouveaux déploiements avec les versions 1.34 et ultérieures de Kubernetes, car le DRA fournit une sélection d'appareils plus riche, une planification adaptée à la topologie et des fonctionnalités de partage d'appareils qui ne sont pas possibles avec les plug-ins de périphériques.
Consultez la documentation Kubernetes relative à l'allocation dynamique des ressources
Allocation dynamique des ressources par rapport aux plug-ins d'appareils
Les plug-ins de périphériques Kubernetes ont été le principal mécanisme permettant d'exposer du matériel spécialisé aux charges de travail Kubernetes. Les plug-ins d'appareils présentent les appareils comme des ressources étendues (par exemple, nvidia.com/gpu ouaws.amazon.com/neuroncore) que vous demandez dans les demandes et limites de ressources du conteneur. Bien que les plug-ins d'appareils soient largement pris en charge et utilisés, ils présentent des limites :
-
Les appareils sont demandés sous forme de nombres entiers opaques sans filtrage basé sur les attributs.
-
Le partage d'appareils entre conteneurs ou pods n'est pas pris en charge.
-
Aucune allocation expressive tenant compte de la topologie entre les types d'appareils.
-
Des extensions de planificateur personnalisées sont souvent nécessaires pour un placement intelligent.
L'allocation dynamique des ressources (DRA) est une fonctionnalité de Kubernetes généralement disponible dans la version 1.34 de Kubernetes qui répond à ces limitations. Avec DRA, les pilotes de périphériques publient de riches attributs de périphérique dans le planificateur Kubernetes par le biais d'objets. ResourceSlice Vous demandez des appareils utilisant des catégories ResourceClaim et ResourceClaimTemplate des objets qui font référence à des DeviceClass catégories.
Le DRA permet de :
-
Sélection de périphériques basée sur les attributs à l'aide d'expressions CEL (Common Expression Language).
-
Allocation tenant compte de la topologie qui garantit que les appareils sont colocalisés sur le même PCIe commutateur ou le même domaine NUMA.
-
Partage d'appareils entre plusieurs conteneurs ou pods via des
ResourceClaimréférences partagées. -
Planification basée sur les contraintes qui aligne les différents types d'appareils
Pilotes DRA pour Amazon EKS
Les pilotes DRA suivants sont couramment utilisés pour gérer des périphériques matériels spécialisés dans les clusters Amazon EKS.
- pilote Neuron DRA
-
Le pilote Neuron DRA gère l'allocation des appareils AWS Trainium et AWS Inferentia2 grâce à une planification tenant compte de la topologie, à l'allocation de sous-ensembles de périphériques connectés et à une configuration logique NeuronCore (LNC), sans nécessiter d'extensions de planificateur personnalisées.
- pilote NVIDIA DRA
-
Le pilote NVIDIA DRA GPUs
permet une allocation flexible et une reconfiguration dynamique de NVIDIA GPUs, y compris la prise en charge des ComputeDomainressources pour les charges de travail NVLink multi-nœuds (MNNVL) sur les instances EC2 Grace-Blackwell. Pour plus d'informations sur l'utilisationComputeDomainsavec les instances EC2 Grace-Blackwell, consultez. Utiliser P6e- GB200 UltraServers avec Amazon EKS
Plug-ins d'appareil pour Amazon EKS
Les plug-ins d'appareil suivants sont couramment utilisés pour gérer des périphériques matériels spécialisés dans les clusters Amazon EKS.
- Plug-in pour appareil EFA
-
Le plug-in EFA découvre tous les appareils EFA disponibles sur chaque nœud et annonce les appareils EFA en tant que ressources
vpc.amazonaws.com/efaétendues. - Plug-in pour appareil Neuron
-
Le plug-in de l'appareil Neuron
expose le matériel Neuron sous forme aws.amazon.com/neuroncorede ressources étendues.aws.amazon.com/neuronIl découvre les appareils Neuron disponibles sur chaque nœud, les annonce comme des ressources allouables et gère leur cycle de vie. - Plug-in pour appareil NVIDIA
-
Le plugin pour appareil NVIDIA
présente NVIDIA en GPUs tant que ressources nvidia.com/gpuétendues et suit l'état de santé de GPUs.
Considérations
Avant d'utiliser les pilotes DRA sur Amazon EKS, prenez en compte les points suivants :
-
Le DRA est disponible sur Amazon EKS avec Kubernetes version 1.33 ou ultérieure, mais il est recommandé pour les versions 1.34 et ultérieures en raison d'un problème lié à Kubernetes en amont.
Le plan de contrôle et les nœuds de votre cluster doivent exécuter une version de Kubernetes compatible avec le DRA. -
Le DRA n'est actuellement pas compatible avec le calcul provisionné en mode automatique Karpenter ou EKS. Vous devez utiliser des groupes de nœuds gérés par EKS ou des nœuds autogérés dotés de pilotes DRA.
-
Les pilotes DRA et les plug-ins de périphérique pour le même type de périphérique ne doivent pas s'exécuter simultanément sur le même nœud. Désinstallez le plug-in du périphérique avant d'installer le pilote DRA correspondant, ou déployez-le sur des nœuds distincts. Consultez Kubernetes KEP-5004 en amont pour des mises à jour sur la compatibilité des pilotes
DRA et des plug-ins de périphérique. -
DRA utilise des ressources d'API Kubernetes (
ResourceClaim,ResourceClaimTemplate,DeviceClass) différentes de celles des plug-ins d'appareils (resource.limits,).resource.requestsLa migration des plug-ins d'appareils vers le DRA nécessite de mettre à jour les spécifications de votre charge de travail. -
Les plug-ins d'appareils restent entièrement pris en charge pour toutes les versions de Kubernetes. Si votre cluster exécute une version de Kubernetes antérieure à la version 1.34, si vous utilisez le mode automatique Karpenter ou EKS, ou si vous utilisez Bottlerocket, continuez à utiliser des plug-ins pour appareils.