Überwachung von Cluster-Daten mit Amazon CloudWatch - Amazon EKS

Unterstützung für die Verbesserung dieser Seite beitragen

Um zu diesem Benutzerhandbuch beizutragen, klicken Sie auf den Link Diese Seite auf GitHub bearbeiten, der sich im rechten Bereich jeder Seite befindet.

Überwachung von Cluster-Daten mit Amazon CloudWatch

Amazon CloudWatch ist ein Überwachungs-Service, der Metriken und Protokolle aus Ihren Cloud-Ressourcen erfasst. CloudWatch stellt einige grundlegende Amazon-EKS-Metriken kostenlos zur Verfügung, wenn Sie einen neuen Cluster der Version 1.28 oder höher verwenden. Wenn Sie jedoch den CloudWatch-Beobachtbarkeits-Operator als Amazon-EKS-Add-On verwenden, können Sie erweiterte Features zur Beobachtbarkeit nutzen.

Grundlegende Metriken in Amazon CloudWatch

Für Cluster mit Kubernetes-Version 1.28 und höher erhalten Sie CloudWatch-Metriken kostenlos im AWS/EKS-Namespace. Die folgende Tabelle enthält eine Liste der grundlegenden Metriken, die für die unterstützten Versionen verfügbar sind. Jede aufgeführte Metrik hat eine Frequenz von einer Minute.

Metrikname Beschreibung

scheduler_schedule_attempts_total

Die Gesamtzahl der Versuche des Schedulers, Pods im Cluster für einen bestimmten Zeitraum zu planen. Diese Metrik unterstützt die Überwachung der Workload des Schedulers und kann auf Planungsdruck oder potenzielle Probleme bei der Pod-Platzierung hinweisen.

Einheiten: Anzahl

Gültige Statistiken: Summe

scheduler_schedule_attempts_SCHEDULED

Die Anzahl der erfolgreichen Versuche des Schedulers, Pods für einen bestimmten Zeitraum auf Knoten im Cluster zu planen.

Einheiten: Anzahl

Gültige Statistiken: Summe

scheduler_schedule_attempts_UNSCHEDULABLE

Die Anzahl der Versuche, Pods zu planen, die für einen bestimmten Zeitraum aufgrund gültiger Einschränkungen, wie z. B. unzureichender CPU oder Speicher auf einem Knoten, nicht planbar waren.

Einheiten: Anzahl

Gültige Statistiken: Summe

scheduler_schedule_attempts_ERROR

Die Anzahl der Versuche, Pods zu planen, die für einen bestimmten Zeitraum aufgrund eines internen Problems mit dem Planer selbst, wie z. B. Verbindungsproblemen des API-Servers, fehlgeschlagen sind.

Einheiten: Anzahl

Gültige Statistiken: Summe

scheduler_pending_pods

Die Gesamtzahl der ausstehenden Pods, die vom Scheduler im Cluster für einen bestimmten Zeitraum geplant werden sollen.

Einheiten: Anzahl

Gültige Statistiken: Summe

scheduler_pending_pods_ACTIVEQ

Die Anzahl der ausstehenden Pods in ActiveQ, die darauf warten, für einen bestimmten Zeitraum im Cluster geplant zu werden.

Einheiten: Anzahl

Gültige Statistiken: Summe

scheduler_pending_pods_UNSCHEDULABLE

Die Anzahl der ausstehenden Pods, die der Planer zu planen versucht hat, bei denen dies jedoch fehlgeschlagen ist, und die für einen erneuten Versuch in einem nicht planbaren Zustand gehalten werden.

Einheiten: Anzahl

Gültige Statistiken: Summe

scheduler_pending_pods_BACKOFF

Die Anzahl der ausstehenden Pods in backoffQ im Backoff-Zustand, die auf den Ablauf ihrer Backoff-Periode warten.

Einheiten: Anzahl

Gültige Statistiken: Summe

scheduler_pending_pods_GATED

Die Anzahl der ausstehenden Pods, die derzeit in einem gesperrten Zustand warten, da sie erst geplant werden können, wenn sie die erforderlichen Bedingungen erfüllen.

Einheiten: Anzahl

Gültige Statistiken: Summe

apiserver_request_total

Die Anzahl der HTTP-Anfragen, die über alle API-Server im Cluster gestellt wurden.

Einheiten: Anzahl

Gültige Statistiken: Summe

apiserver_request_total_4XX

Die Anzahl der HTTP-Anfragen an alle API-Server im Cluster, die zu 4XX-Statuscodes (clientseitige Fehler) führten.

Einheiten: Anzahl

Gültige Statistiken: Summe

apiserver_request_total_429

Die Anzahl der HTTP-Anfragen an alle API-Server im Cluster, die zu 429Statuscodes geführt haben, die auftreten, wenn Clients die Schwellenwerte für die Ratenbegrenzung überschreiten.

Einheiten: Anzahl

Gültige Statistiken: Summe

apiserver_request_total_5XX

Die Anzahl der HTTP-Anfragen an alle API-Server im Cluster, die zu 5XX-Statuscodes (Serverfehler) führten.

Einheiten: Anzahl

Gültige Statistiken: Summe

apiserver_request_total_LIST_PODS

Die Anzahl der LIST-Pods-Anfragen an alle API-Server im Cluster.

Einheiten: Anzahl

Gültige Statistiken: Summe

apiserver_request_duration_seconds_PUT_P99

Das 99. Perzentil der Latenz für PUT-Anfragen, berechnet aus allen Anfragen aller API-Server im Cluster. Stellt die Antwortzeit dar, unter der 99 % aller PUT-Anfragen abgeschlossen werden.

Einheiten: Sekunden

Gültige Statistiken: Durchschnitt

apiserver_request_duration_seconds_PATCH_P99

Das 99. Perzentil der Latenz für PATCH-Anfragen, berechnet aus allen Anfragen aller API-Server im Cluster. Stellt die Antwortzeit dar, unter der 99 % aller PATCH-Anfragen abgeschlossen werden.

Einheiten: Sekunden

Gültige Statistiken: Durchschnitt

apiserver_request_duration_seconds_POST_P99

Das 99. Perzentil der Latenz für POST-Anfragen, berechnet aus allen Anfragen aller API-Server im Cluster. Stellt die Antwortzeit dar, unter der 99 % aller POST-Anfragen abgeschlossen werden.

Einheiten: Sekunden

Gültige Statistiken: Durchschnitt

apiserver_request_duration_seconds_GET_P99

Das 99. Perzentil der Latenz für GET-Anfragen, berechnet aus allen Anfragen aller API-Server im Cluster. Stellt die Antwortzeit dar, unter der 99 % aller GET-Anfragen abgeschlossen werden.

Einheiten: Sekunden

Gültige Statistiken: Durchschnitt

apiserver_request_duration_seconds_LIST_P99

Das 99. Perzentil der Latenz für LIST-Anfragen, berechnet aus allen Anfragen aller API-Server im Cluster. Stellt die Antwortzeit dar, unter der 99 % aller LIST-Anfragen abgeschlossen werden.

Einheiten: Sekunden

Gültige Statistiken: Durchschnitt

apiserver_request_duration_seconds_DELETE_P99

Das 99. Perzentil der Latenz für DELETE-Anfragen, berechnet aus allen Anfragen aller API-Server im Cluster. Stellt die Antwortzeit dar, unter der 99 % aller DELETE-Anfragen abgeschlossen werden.

Einheiten: Sekunden

Gültige Statistiken: Durchschnitt

apiserver_current_inflight_requests_MUTATING

Die Anzahl der mutierenden Anfragen (POST, PUT, DELETE, PATCH), die derzeit auf allen API-Servern im Cluster verarbeitet werden. Diese Metrik stellt Anfragen dar, die sich in der Bearbeitung befinden und deren Verarbeitung noch nicht abgeschlossen ist

Einheiten: Anzahl

Gültige Statistiken: Summe

apiserver_current_inflight_requests_READONLY

Die Anzahl der schreibgeschützten Anfragen (GET, LIST), die derzeit auf allen API-Servern im Cluster verarbeitet werden. Diese Metrik stellt Anfragen dar, die sich in der Bearbeitung befinden und deren Verarbeitung noch nicht abgeschlossen ist

Einheiten: Anzahl

Gültige Statistiken: Summe

apiserver_admission_webhook_request_total

Die Anzahl der Zulassungs-Webhook-Anfragen, die über alle API-Server im Cluster gestellt wurden

Einheiten: Anzahl

Gültige Statistiken: Summe

apiserver_admission_webhook_request_total_ADMIT

Die Anzahl der mutierenden Zulassungs-Webhook-Anfragen, die über alle API-Server im Cluster gestellt wurden.

Einheiten: Anzahl

Gültige Statistiken: Summe

apiserver_admission_webhook_request_total_VALIDATING

Die Anzahl der validierenden Zulassungs-Webhook-Anfragen, die über alle API-Server im Cluster gestellt wurden.

Einheiten: Anzahl

Gültige Statistiken: Summe

apiserver_admission_webhook_rejection_count

Die Anzahl der Zulassungs-Webhook-Anfragen, die über alle API-Server im Cluster gestellt und abgelehnt wurden.

Einheiten: Anzahl

Gültige Statistiken: Summe

apiserver_admission_webhook_rejection_count_ADMIT

Die Anzahl der abgelehnten mutierenden Zulassungs-Webhook-Anfragen über alle API-Server im Cluster.

Einheiten: Anzahl

Gültige Statistiken: Summe

apiserver_admission_webhook_rejection_count_VALIDATING

Die Anzahl der Webhook-Anfragen zur Validierung der Zulassung, die über alle API-Server im Cluster gestellt und abgelehnt wurden.

Einheiten: Anzahl

Gültige Statistiken: Summe

apiserver_admission_webhook_admission_duration_seconds

Das 99. Perzentil der Latenz für Zulassungs-Webhook-Anfragen von Drittanbietern, berechnet aus allen Anfragen aller API-Server im Cluster. Stellt die Antwortzeit dar, unter der 99 % aller Zulassungs-Webhook-Anfragen von Drittanbietern abgeschlossen werden.

Einheiten: Sekunden

Gültige Statistiken: Durchschnitt

apiserver_admission_webhook_admission_duration_seconds_ADMIT_P99

Das 99. Perzentil der Latenz für mutierende Zulassungs-Webhook-Anfragen von Drittanbietern, berechnet aus allen Anfragen aller API-Server im Cluster. Stellt die Antwortzeit dar, unter der 99 % aller mutierenden Zulassungs-Webhook-Anfragen von Drittanbietern abgeschlossen werden.

Einheiten: Sekunden

Gültige Statistiken: Durchschnitt

apiserver_admission_webhook_admission_duration_seconds_VALIDATING_P99

Das 99. Perzentil der Latenz für Webhook-Anfragen zur Validierung von Zulassungen durch Dritte, berechnet aus allen Anfragen aller API-Server im Cluster. Stellt die Antwortzeit dar, unter der 99 % aller Webhook-Anfragen von Drittanbietern zur Validierung der Zulassung abgeschlossen werden.

Einheiten: Sekunden

Gültige Statistiken: Durchschnitt

apiserver_storage_size_bytes

Die physische Größe in Bytes der etcd-Speicher-Datenbankdatei, die von den API-Servern im Cluster verwendet wird. Diese Metrik stellt den tatsächlich für den Speicher zugewiesenen Speicherplatz dar.

Einheiten: Byte

Gültige Statistiken: Maximum

Amazon CloudWatch Observability Operator

Amazon-CloudWatch-Beobachtbarkeit erfasst Echtzeit-Protokolle, Metriken und Nachverfolgungsdaten. Diese werden an Amazon CloudWatch und AWS X-Ray übermittelt. Sie können dieses Add-on installieren, um sowohl CloudWatch Application Signals als auch CloudWatch Container Insights mit verbesserter Beobachtbarkeit für Amazon EKS zu ermöglichen. Dies hilft Ihnen, den Zustand und die Leistung Ihrer Infrastruktur und containerisierten Anwendungen zu überwachen. Der Amazon-CloudWatch-Beobachtbarkeitsoperator dient zur Installation und Konfiguration der erforderlichen Komponenten.

Amazon EKS unterstützt den CloudWatch-Beobachtbarkeitsoperator als Amazon-EKS-Add-On. Das Add-On ermöglicht den Einsatz von Container Insights sowohl auf Linux- als auch auf Windows-Worker-Knoten im Cluster. Um Container Insights unter Windows zu aktivieren, muss die Amazon-EKS-Add-On-Version mindestens 1.5.0 sein. Derzeit werden CloudWatch Application Signals auf Amazon EKS Windows nicht unterstützt.

Die nachfolgenden Themen beschreiben die ersten Schritte mit CloudWatch-Beobachtbarkeitsoperator für Ihren Amazon-EKS-Cluster.