Aidez à améliorer cette page
Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Pour contribuer à ce guide de l'utilisateur, cliquez sur le GitHub lien Modifier cette page sur qui se trouve dans le volet droit de chaque page.
Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
L'état de santé du nœud fait référence à l'état opérationnel et à la capacité d'un nœud à exécuter efficacement les charges de travail. Un nœud sain maintient la connectivité attendue, dispose de ressources suffisantes et peut exécuter des Pods avec succès sans interruption. Pour plus d'informations sur l'obtention de détails sur vos nœuds, reportez-vous aux Afficher l'état de santé de vos nœuds sections etRécupérez les journaux d'un nœud géré à l'aide de kubectl et S3.
Pour aider à maintenir des nœuds sains, Amazon EKS propose l'agent de surveillance des nœuds et la réparation automatique des nœuds.
Agent de surveillance des nœuds
L'agent de surveillance des nœuds lit automatiquement les journaux des nœuds pour détecter certains problèmes de santé. Il analyse les journaux des nœuds pour détecter les défaillances et affiche diverses informations d'état sur les nœuds de travail. Un code dédié NodeCondition
est appliqué sur les nœuds de travail pour chaque catégorie de problèmes détectés, tels que les problèmes de stockage et de réseau. Les descriptions des problèmes de santé détectés sont disponibles dans le tableau de bord d'observabilité. Pour de plus amples informations, veuillez consulter Problèmes de santé des nœuds.
L'agent de surveillance des nœuds est inclus en tant que fonctionnalité pour tous les clusters en mode automatique Amazon EKS. Pour les autres types de clusters, vous pouvez ajouter l'agent de surveillance en tant que module complémentaire Amazon EKS. Pour de plus amples informations, veuillez consulter Création d'un module complémentaire Amazon EKS.
Réparation automatique de nœuds
La réparation automatique des nœuds est une fonctionnalité supplémentaire qui surveille en permanence l'état des nœuds, réagit automatiquement aux problèmes détectés et remplace les nœuds lorsque cela est possible. Cela permet une disponibilité globale du cluster avec une intervention manuelle minimale. Si un contrôle de santé échoue, le nœud est automatiquement bouclé afin qu'aucun nouveau pod ne soit programmé sur le nœud.
À elle seule, la réparation automatique des nœuds peut réagir à l'Ready
état des objets du nœud kubelet
et de tout objet supprimé manuellement. Lorsqu'elle est associée à l'agent de surveillance des nœuds, la réparation automatique des nœuds peut réagir à un plus grand nombre de conditions qui ne seraient pas détectées autrement. Ces conditions supplémentaires incluent KernelReady
NetworkingReady
, etStorageReady
.
Cette restauration automatique des nœuds résout automatiquement les problèmes intermittents liés aux nœuds, tels que les échecs de connexion au cluster, l'absence de réponse des kubelets et l'augmentation du nombre d'erreurs liées aux accélérateurs (appareils). La fiabilité améliorée permet de réduire les temps d'arrêt des applications et d'améliorer le fonctionnement des clusters. La réparation automatique du nœud ne peut pas gérer certains problèmes signalésDiskPressure
, tels queMemoryPressure
, etPIDPressure
. Amazon EKS attend 10 minutes avant d'agir sur le AcceleratedHardwareReady
NodeConditions
, et 30 minutes pour toutes les autres conditions.
Les groupes de nœuds gérés désactiveront également automatiquement les réparations de nœuds pour des raisons de sécurité dans deux scénarios. Toutes les opérations de réparation déjà en cours se poursuivront dans les deux situations.
-
Si un changement de zone pour votre cluster a été déclenché par le biais de l'Application Recovery Controller (ARC), toutes les opérations de réparation ultérieures sont interrompues.
-
Si votre groupe de nœuds compte plus de cinq nœuds et que plus de 20 % des nœuds de votre groupe de nœuds sont en mauvais état, les opérations de réparation sont interrompues.
Vous pouvez activer la réparation automatique des nœuds lors de la création ou de la modification d'un groupe de nœuds géré.
-
Lorsque vous utilisez la console Amazon EKS, cochez la case Activer la réparation automatique du nœud pour le groupe de nœuds géré. Pour de plus amples informations, veuillez consulter Créez un groupe de nœuds gérés pour votre cluster.
-
Lorsque vous utilisez la AWS CLI, ajoutez la
eks update-nodegroup-config
commande--node-repair-config enabled=true
to theeks create nodegroup
or. -
Pour un exemple d'utilisation
eksctl
ClusterConfig
d'un groupe de nœuds géré avec réparation automatique des nœuds, consultez 44-node-repair.yamlon. GitHub
Problèmes de santé des nœuds
Les tableaux suivants décrivent les problèmes de santé des nœuds qui peuvent être détectés par l'agent de surveillance des nœuds. Il existe deux types de problèmes :
-
Condition : problème de terminal qui justifie une action corrective telle que le remplacement ou le redémarrage d'une instance. Lorsque la réparation automatique est activée, Amazon EKS effectue une action de réparation, soit en remplaçant le nœud, soit en redémarrant. Pour de plus amples informations, veuillez consulter Conditions du nœud.
-
Événement : problème temporaire ou configuration de nœud sous-optimale. Aucune action de réparation auto n'aura lieu. Pour de plus amples informations, veuillez consulter Événements liés aux nœuds.
Problèmes de santé des nœuds du noyau
Nom | Sévérité | Description |
---|---|---|
ForkFailedOutOfPID |
Condition |
Un appel fork ou exec a échoué en raison d'un manque de processus IDs ou de mémoire du système, ce qui peut être dû à des processus zombies ou à un épuisement physique de la mémoire. |
AppBlocked |
Événement |
La planification de la tâche a été bloquée pendant une longue période, généralement en raison d'un blocage en entrée ou en sortie. |
AppCrash |
Événement |
Une application sur le nœud est tombée en panne. |
ApproachingKernelPidMax |
Événement |
Le nombre de processus approche le nombre maximum de processus disponibles PIDs selon le paramètre kernel.pid_max actuel, après quoi aucun autre processus ne pourra être lancé. |
ApproachingMaxOpenFiles |
Événement |
Le nombre de fichiers ouverts est proche du nombre maximum de fichiers ouverts possibles compte tenu des paramètres actuels du noyau, après quoi l'ouverture de nouveaux fichiers échouera. |
ConntrackExceededKernel |
Événement |
Le suivi des connexions a dépassé le maximum pour le noyau et de nouvelles connexions n'ont pas pu être établies, ce qui peut entraîner une perte de paquets. |
ExcessiveZombieProcesses |
Événement |
Les processus qui ne peuvent pas être entièrement récupérés s'accumulent en grand nombre, ce qui indique des problèmes d'application et peut conduire à l'atteinte des limites des processus du système. |
KernelBug |
Événement |
Un bogue du noyau a été détecté et signalé par le noyau Linux lui-même, bien que cela puisse parfois être dû à une utilisation élevée du processeur ou de la mémoire sur des nœuds, ce qui a entraîné un retard dans le traitement des événements. |
LargeEnvironment |
Événement |
Le nombre de variables d'environnement associées à ce processus est supérieur aux prévisions, ce qui peut être dû au fait que de nombreux services sont enableServiceLinks définis sur true, ce qui peut entraîner des problèmes de performances. |
RapidCron |
Événement |
Une tâche cron s'exécute plus rapidement que toutes les cinq minutes sur ce nœud, ce qui peut avoir un impact sur les performances si la tâche consomme des ressources importantes. |
SoftLockup |
Événement |
Le processeur s'est arrêté pendant un certain temps. |
Problèmes de santé des nœuds du réseau
Nom | Sévérité | Description |
---|---|---|
InterfaceNotRunning |
Condition |
Cette interface ne semble pas fonctionner ou il y a des problèmes de réseau. |
InterfaceNotUp |
Condition |
Cette interface ne semble pas fonctionner ou il y a des problèmes de réseau. |
IPAMDNotPrêt |
Condition |
L'IPAMD ne parvient pas à se connecter au serveur API. |
IPAMDNotCourir |
Condition |
Le |
MissingLoopbackInterface |
Condition |
L'interface de bouclage est absente de cette instance, ce qui entraîne une défaillance des services en fonction de la connectivité locale. |
BandwidthInExceeded |
Événement |
Des paquets ont été mis en file d'attente ou supprimés car la bande passante agrégée entrante dépassait le maximum pour l'instance. |
BandwidthOutExceeded |
Événement |
Des paquets ont été mis en file d'attente ou supprimés car la bande passante agrégée sortante dépassait le maximum pour l'instance. |
ConntrackExceeded |
Événement |
Le suivi des connexions a dépassé le maximum pour l'instance et aucune nouvelle connexion n'a pu être établie, ce qui peut entraîner une perte de paquets. |
IPAMDNoIPs |
Événement |
Il n'y a plus d'adresses IP à l'IPAM-D. |
IPAMDRepeatedlyRedémarrer |
Événement |
Plusieurs redémarrages du service IPAMD ont eu lieu. |
KubeProxyNotReady |
Événement |
Kube-proxy n'a pas réussi à surveiller ou à répertorier les ressources. |
LinkLocalExceeded |
Événement |
Les paquets ont été abandonnés car le PPS du trafic vers les services proxy locaux dépassait le maximum de l'interface réseau. |
MissingDefaultRoutes |
Événement |
Les règles d'itinéraire par défaut sont manquantes. |
IPRulesDisparus, disparus IPRoutes |
Événement |
Des règles de routage sont absentes de la table IPs de routage pour le pod suivant. |
NetworkSysctl |
Événement |
Les paramètres réseau sysctl de ce nœud sont potentiellement incorrects. |
PortConflict |
Événement |
Si un Pod utilise HostPort, il peut écrire des règles iptables qui remplacent les ports déjà liés de l'hôte, empêchant potentiellement l'accès du serveur API à. |
PPSExceeded |
Événement |
Des paquets ont été mis en file d'attente ou supprimés car le PPS bidirectionnel a dépassé le maximum pour l'instance. |
UnexpectedRejectRule |
Événement |
Une |
Problèmes de santé des nœuds neuronaux
Nom | Sévérité | Description |
---|---|---|
Neurone DMAError |
Condition |
Un moteur DMA a rencontré une erreur irrécupérable. |
Erreur neuronale HBMUncorrectable |
Condition |
Un HBM a rencontré une erreur irréparable et a produit des résultats incorrects. |
Erreur neuronale NCUncorrectable |
Condition |
Une erreur de mémoire non corrigible de Neuron Core a été détectée. |
Erreur neuronale SRAMUncorrectable |
Condition |
Une mémoire SRAM intégrée a rencontré une erreur de parité et a produit des résultats incorrects. |
Problèmes de santé des nœuds NVIDIA
Si la réparation automatique est activée, les actions de réparation répertoriées démarrent 10 minutes après la détection du problème. Pour plus d'informations sur les erreurs XID, consultez la section Erreurs Xid
Nom | Sévérité | Description | Action de réparation |
---|---|---|---|
NvidiaDoubleBitError |
Condition |
Une erreur de double bit a été produite par le pilote du GPU. |
Remplacez |
NVLinkErreur Nvidia |
Condition |
NVLink des erreurs ont été signalées par le pilote du GPU. |
Remplacez |
XID13Erreur Nvidia |
Condition |
Il existe une exception liée au moteur graphique. |
Redémarrer |
XID31Erreur Nvidia |
Condition |
Des problèmes matériels sont suspectés. |
Redémarrer |
XID48Erreur Nvidia |
Condition |
Les erreurs ECC à double bit sont signalées par le pilote. |
Redémarrer |
XID63Erreur Nvidia |
Condition |
Il y a un retrait de page ou une modification du mappage des lignes. |
Redémarrer |
XID64Erreur Nvidia |
Condition |
La tentative de retrait d'une page ou de remappage d'un nœud échoue. |
Redémarrer |
XID74Erreur Nvidia |
Condition |
Un problème est survenu lors de la connexion entre le processeur graphique et un autre processeur graphique ou NVSwitch supérieur NVLink. Cela peut indiquer une défaillance matérielle du lien lui-même ou un problème lié à l'appareil situé à l'extrémité distante du lien. |
Remplacez |
XID79Erreur Nvidia |
Condition |
Le pilote du GPU a tenté d'accéder au GPU via sa connexion PCI Express et a constaté que le GPU n'était pas accessible. |
Remplacez |
XID94Erreur Nvidia |
Condition |
Il existe des erreurs de mémoire ECC. |
Redémarrer |
XID95Erreur Nvidia |
Condition |
Il existe des erreurs de mémoire ECC. |
Redémarrer |
XID119Erreur Nvidia |
Condition |
Le GSP a expiré pour répondre aux demandes RPC provenant d'autres bits du pilote. |
Remplacez |
Erreur Nvidia XID12 0 |
Condition |
Le GSP a répondu à temps, mais avec une erreur. |
Remplacez |
XID121Erreur Nvidia |
Condition |
C2C est une interconnexion de puces. Il permet de partager de la mémoire entre CPUs des accélérateurs, etc. |
Remplacez |
Erreur Nvidia XID14 0 |
Condition |
Le pilote du processeur graphique a peut-être observé des erreurs irréparables dans la mémoire du processeur graphique, de manière à interrompre la capacité du pilote du processeur graphique à marquer les pages pour le délignage dynamique des pages ou le remappage des lignes. |
Remplacez |
NvidiaPageRetirement |
Événement |
Le pilote du GPU a marqué une page de mémoire pour suppression. Cela peut se produire s'il y a une seule erreur sur deux bits ou si deux erreurs sur un seul bit sont rencontrées à la même adresse. |
Aucun |
Avertissement NvidiaXid [Code] |
Événement |
Toute occurrence XIDs autre que celles définies dans cette liste entraîne cet événement. |
Aucun |
Problèmes de santé du nœud d'exécution
Nom | Sévérité | Description |
---|---|---|
PodStuckTerminating |
Condition |
Un pod est ou a été bloqué pendant trop longtemps, ce qui peut être dû à des erreurs CRI empêchant la progression de l'état du pod. |
%sRepeatedRestart |
Événement |
Redémarre n'importe quel service systemd sur le nœud (formaté à l'aide du nom de l'unité indiqué par le titre). |
ContainerRuntimeFailed |
Événement |
Le moteur d'exécution du conteneur n'a pas réussi à créer de conteneur, probablement en raison de problèmes signalés s'ils se produisaient à plusieurs reprises. |
KubeletFailed |
Événement |
Le kubelet est entré dans un état d'échec. |
LivenessProbeFailures |
Événement |
Une défaillance de la sonde de réactivité a été détectée, ce qui peut indiquer des problèmes de code d'application ou des valeurs de délai d'expiration insuffisantes en cas de survenue répétée. |
ReadinessProbeFailures |
Événement |
Une défaillance de la sonde de disponibilité a été détectée, ce qui peut indiquer des problèmes liés au code de l'application ou des valeurs de délai d'expiration insuffisantes en cas de répétition. |
ServiceFailedToStart |
Événement |
Une unité systemd n'a pas pu démarrer. |
Problèmes de santé des nœuds de stockage
Nom | Sévérité | Description |
---|---|---|
XFSSmallAverageClusterSize |
Condition |
La taille moyenne du cluster XFS est petite, ce qui indique une fragmentation excessive de l'espace libre susceptible d'empêcher la création de fichiers malgré les inodes ou l'espace libre disponibles. |
EtcHostsMountFailed |
Événement |
Le montage du kubelet généré |
IODelays |
Événement |
Retard d'entrée ou de sortie détecté dans un processus, indiquant potentiellement un approvisionnement en entrées-sorties insuffisant s'il est excessif. |
KubeletDiskUsageSlow |
Événement |
Kubelet signale une utilisation lente du disque lors de la tentative d'accès au système de fichiers, ce qui peut indiquer une insuffisance des entrées-sorties du disque ou des problèmes de système de fichiers. |