Gérez les appareils matériels sur Amazon EKS - Amazon EKS

Aidez à améliorer cette page

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Pour contribuer à ce guide de l'utilisateur, cliquez sur le GitHub lien Modifier cette page sur qui se trouve dans le volet droit de chaque page.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Gérez les appareils matériels sur Amazon EKS

Amazon EKS prend en charge deux mécanismes Kubernetes pour gérer les périphériques matériels spécialisés dans les clusters EKS : l'allocation dynamique des ressources (DRA) et les plug-ins d'appareils. Les deux mécanismes permettent aux charges de travail d'accéder à des accélérateurs matériels tels que les puces NVIDIA GPUs et AWS Trainium, et à des périphériques réseau à hautes performances tels que Elastic Fabric Adapter (EFA). Il est recommandé d'utiliser les pilotes DRA pour les nouveaux déploiements avec les versions 1.34 et ultérieures de Kubernetes, car le DRA fournit une sélection d'appareils plus riche, une planification adaptée à la topologie et des fonctionnalités de partage d'appareils qui ne sont pas possibles avec les plug-ins de périphériques.

Consultez la documentation Kubernetes relative à l'allocation dynamique des ressources et aux plug-ins d'appareils pour obtenir des informations générales sur ces deux fonctionnalités de Kubernetes.

Allocation dynamique des ressources par rapport aux plug-ins d'appareils

Les plug-ins de périphériques Kubernetes ont été le principal mécanisme permettant d'exposer du matériel spécialisé aux charges de travail Kubernetes. Les plug-ins d'appareils présentent les appareils comme des ressources étendues (par exemple, nvidia.com/gpu ouaws.amazon.com/neuroncore) que vous demandez dans les demandes et limites de ressources du conteneur. Bien que les plug-ins d'appareils soient largement pris en charge et utilisés, ils présentent des limites :

  • Les appareils sont demandés sous forme de nombres entiers opaques sans filtrage basé sur les attributs.

  • Le partage d'appareils entre conteneurs ou pods n'est pas pris en charge.

  • Aucune allocation expressive tenant compte de la topologie entre les types d'appareils.

  • Des extensions de planificateur personnalisées sont souvent nécessaires pour un placement intelligent.

L'allocation dynamique des ressources (DRA) est une fonctionnalité de Kubernetes généralement disponible dans la version 1.34 de Kubernetes qui répond à ces limitations. Avec DRA, les pilotes de périphériques publient de riches attributs de périphérique dans le planificateur Kubernetes par le biais d'objets. ResourceSlice Vous demandez des appareils utilisant des catégories ResourceClaim et ResourceClaimTemplate des objets qui font référence à des DeviceClass catégories.

Le DRA permet de :

  • Sélection de périphériques basée sur les attributs à l'aide d'expressions CEL (Common Expression Language).

  • Allocation tenant compte de la topologie qui garantit que les appareils sont colocalisés sur le même PCIe commutateur ou le même domaine NUMA.

  • Partage d'appareils entre plusieurs conteneurs ou pods via des ResourceClaim références partagées.

  • Planification basée sur les contraintes qui aligne les différents types d'appareils

Pilotes DRA pour Amazon EKS

Les pilotes DRA suivants sont couramment utilisés pour gérer des périphériques matériels spécialisés dans les clusters Amazon EKS.

pilote Neuron DRA

Le pilote Neuron DRA gère l'allocation des appareils AWS Trainium et AWS Inferentia2 grâce à une planification tenant compte de la topologie, à l'allocation de sous-ensembles de périphériques connectés et à une configuration logique NeuronCore (LNC), sans nécessiter d'extensions de planificateur personnalisées.

pilote NVIDIA DRA

Le pilote NVIDIA DRA GPUs permet une allocation flexible et une reconfiguration dynamique de NVIDIA GPUs, y compris la prise en charge des ComputeDomain ressources pour les charges de travail NVLink multi-nœuds (MNNVL) sur les instances EC2 Grace-Blackwell. Pour plus d'informations sur l'utilisation ComputeDomains avec les instances EC2 Grace-Blackwell, consultez. Utiliser P6e- GB200 UltraServers avec Amazon EKS

Plug-ins d'appareil pour Amazon EKS

Les plug-ins d'appareil suivants sont couramment utilisés pour gérer des périphériques matériels spécialisés dans les clusters Amazon EKS.

Plug-in pour appareil EFA

Le plug-in EFA découvre tous les appareils EFA disponibles sur chaque nœud et annonce les appareils EFA en tant que ressources vpc.amazonaws.com/efa étendues.

Plug-in pour appareil Neuron

Le plug-in de l'appareil Neuron expose le matériel Neuron sous forme aws.amazon.com/neuroncore de ressources étendues. aws.amazon.com/neuron Il découvre les appareils Neuron disponibles sur chaque nœud, les annonce comme des ressources allouables et gère leur cycle de vie.

Plug-in pour appareil NVIDIA

Le plugin pour appareil NVIDIA présente NVIDIA en GPUs tant que ressources nvidia.com/gpu étendues et suit l'état de santé de GPUs.

Considérations

Avant d'utiliser les pilotes DRA sur Amazon EKS, prenez en compte les points suivants :

  • Le DRA est disponible sur Amazon EKS avec Kubernetes version 1.33 ou ultérieure, mais il est recommandé pour les versions 1.34 et ultérieures en raison d'un problème lié à Kubernetes en amont. Le plan de contrôle et les nœuds de votre cluster doivent exécuter une version de Kubernetes compatible avec le DRA.

  • Le DRA n'est actuellement pas compatible avec le calcul provisionné en mode automatique Karpenter ou EKS. Vous devez utiliser des groupes de nœuds gérés par EKS ou des nœuds autogérés dotés de pilotes DRA.

  • Les pilotes DRA et les plug-ins de périphérique pour le même type de périphérique ne doivent pas s'exécuter simultanément sur le même nœud. Désinstallez le plug-in du périphérique avant d'installer le pilote DRA correspondant, ou déployez-le sur des nœuds distincts. Consultez Kubernetes KEP-5004 en amont pour des mises à jour sur la compatibilité des pilotes DRA et des plug-ins de périphérique.

  • DRA utilise des ressources d'API Kubernetes (ResourceClaim,ResourceClaimTemplate,DeviceClass) différentes de celles des plug-ins d'appareils (resource.limits,). resource.requests La migration des plug-ins d'appareils vers le DRA nécessite de mettre à jour les spécifications de votre charge de travail.

  • Les plug-ins d'appareils restent entièrement pris en charge pour toutes les versions de Kubernetes. Si votre cluster exécute une version de Kubernetes antérieure à la version 1.34, si vous utilisez le mode automatique Karpenter ou EKS, ou si vous utilisez Bottlerocket, continuez à utiliser des plug-ins pour appareils.

Rubriques