Empfohlene CloudWatch Alarme für Amazon OpenSearch Service - OpenSearch Amazon-Dienst

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Empfohlene CloudWatch Alarme für Amazon OpenSearch Service

CloudWatch -Alarme führen eine Aktion aus, wenn eine CloudWatch Metrik einen bestimmten Wert für einen bestimmten Zeitraum überschreitet. Beispielsweise möchten Sie möglicherweise eine E-Mail AWS senden, wenn Ihr Cluster-Zustand red länger als eine Minute ist. Dieser Abschnitt enthält einige empfohlene Alarme für Amazon OpenSearch Service und wie Sie darauf reagieren können.

Sie können diese Alarme automatisch mit bereitstellen AWS CloudFormation. Ein Beispiel-Stack finden Sie im zugehörigen GitHub Repository .

Anmerkung

Wenn Sie den CloudFormation Stack bereitstellen, befinden sich die KMSKeyInaccessible Alarme KMSKeyError und im Insufficient Data Status , da diese Metriken nur angezeigt werden, wenn eine Domain auf ein Problem mit ihrem Verschlüsselungsschlüssel stößt.

Weitere Informationen zum Konfigurieren von Alarmen finden Sie unter Erstellen von Amazon CloudWatch-Alarmen im Amazon- CloudWatch Benutzerhandbuch.

Alarm Problem
ClusterStatus.red Maximum ist >= 1 für 1 Minute, 1 Mal hintereinander Mindestens ein primärer Shard und dessen Replikate sind keinem Knoten zugewiesen. Siehe Roter Cluster-Status.
ClusterStatus.yellow Maximum ist >= 1 für 1 Minute, 5 Mal hintereinander Mindestens ein Replikat-Shard ist nicht einem Knoten zugewiesen. Siehe Gelber Cluster-Status.
FreeStorageSpace Minimum ist <= 20480 für 1 Minute, 1 Mal hintereinander Ein Knoten in Ihrem Cluster hat nur noch 20 GiB freien Speicherplatz. Siehe Zu wenig verfügbarer Speicherplatz. Dieser Wert wird in MiB angegeben, statt 20480 empfehlen wir deshalb eine Einstellung auf 25 % Ihres Speicherplatzes pro Knoten.
ClusterIndexWritesBlocked ist >= 1 für 5 Minuten, 1 Mal hintereinander Ihr Cluster blockiert Schreibanforderungen. Siehe ClusterBlockException.
Nodes Minimum ist < x für 1 Tag, 1 Mal hintereinander x ist die Anzahl der Knoten in Ihrem Cluster. Dieser Alarm gibt an, dass mindestens ein Knoten in Ihrem Cluster für einen Tag nicht erreichbar war. Siehe Fehlgeschlagene Cluster-Knoten.
AutomatedSnapshotFailure Maximum ist >= 1 für 1 Minute, 1 Mal hintereinander Ein automatisierter Snapshot ist fehlgeschlagen. Dieser Fehler ist häufig das Ergebnis eines roten Cluster-Integritätsstatus. Siehe Roter Cluster-Status.

Für eine Zusammenfassung aller automatischen Snapshots und einige Informationen zu Ausfällen können Sie auch einen der folgenden Schritte ausprobieren:

GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all
CPUUtilization oder WarmCPUUtilization Maximum ist >= 80 % für 15 Minuten, 3 Mal hintereinander Eine 100%ige CPU-Auslastung kann manchmal auftreten, aber eine anhaltend hohe Auslastung ist problematisch. Ziehen Sie die Verwendung von größeren Instance-Typen oder das Hinzufügen von Instances in Betracht.
JVMMemoryPressure Maximum ist >= 95 % für 1 Minute, 3 Mal hintereinander Der Cluster könnte Fehler aufgrund von unzureichendem Speicherplatz erhalten, wenn die Nutzung zunimmt. Ziehen Sie eine vertikale Skalierung in Betracht. Der OpenSearch Service verwendet die Hälfte des RAM einer Instance für den Java-Heap bis zu einer Heap-Größe von 32 GiB. Sie können Instances bis zu 64 GiB RAM vertikal skalieren. Dann können Sie eine horizontale Skalierung durchführen, indem Sie Instances hinzufügen.
OldGenJVMMemoryPressure Maximum ist >= 80 % für 1 Minute, 3 Mal hintereinander
MasterCPUUtilization Maximum ist >= 50 % für 15 Minuten, 3 Mal hintereinander Ziehen Sie die Verwendung von größeren Instance-Typen für Ihre dedizierten Hauptknoten in Betracht. Aufgrund ihrer Rolle für die Cluster-Stabilität und Blau/Grün-Bereitstellungen sollten dedizierte Hauptknoten eine geringere CPU-Nutzung als Datenknoten haben.
MasterJVMMemoryPressure Maximum ist >= 95 % für 1 Minute, 3 Mal hintereinander
MasterOldGenJVMMemoryPressure Maximum ist >= 80 % für 1 Minute, 3 Mal hintereinander
KMSKeyError ist >= 1 für 1 Minute, 1 Mal hintereinander Der AWS KMS Verschlüsselungsschlüssel, der zum Verschlüsseln von Daten im Ruhezustand in Ihrer Domain verwendet wird, ist deaktiviert. Reaktivieren Sie es, um den normalen Betrieb wiederherzustellen. Weitere Informationen finden Sie unter Verschlüsselung von Daten im Ruhezustand für Amazon OpenSearch Service.
KMSKeyInaccessible ist >= 1 für 1 Minute, 1 Mal hintereinander Der AWS KMS Verschlüsselungsschlüssel, der zum Verschlüsseln von Daten im Ruhezustand in Ihrer Domain verwendet wird, wurde gelöscht oder hat seine Berechtigungen für den - OpenSearch Service widerrufen. Für Domains, die sich in diesem Zustand befinden, ist die Wiederherstellung nicht möglich. Wenn Sie jedoch über einen manuellen Snapshot verfügen, können Sie diesen für die Migration zu einer neuen Domain verwenden. Weitere Informationen hierzu finden Sie unter Verschlüsselung von Daten im Ruhezustand für Amazon OpenSearch Service.
shards.active ist >= 30000 für 1 Minute, 1 Mal hintereinander

Die Gesamtzahl der aktiven primären und Replikat-Shards ist größer als 30.000. Möglicherweise rotieren Sie Ihre Indizes zu häufig. Erwägen Sie, ISM zu verwenden, um Indizes zu entfernen, sobald sie ein bestimmtes Alter erreichen.

5xx Alarme >= 10 % von OpenSearchRequests. Ein oder mehrere Datenknoten sind möglicherweise überlastet oder Anfragen können innerhalb des Zeitraums im Leerlauf nicht abgeschlossen werden. Erwägen Sie, zu größeren Instance-Typen zu wechseln oder dem Cluster weitere Knoten hinzuzufügen. Bestätigen Sie Bewährte Methoden für Shard- und Cluster-Architektur.
MasterReachableFromNode Maximum ist < 1 für 5 Minuten, 1 Mal hintereinander

Dieser Alarm zeigt an, dass der Hauptknoten angehalten wurde oder nicht erreichbar ist. Diese Fehler sind normalerweise das Ergebnis eines Problems mit der Netzwerkkonnektivität oder eines AWS Abhängigkeitsproblems.

ThreadpoolWriteQueue Durchschnitt ist >= 100 für 1 Minute, 1 Mal hintereinander Der Cluster erlebt eine hohe Indexierungs-Parallelität. Überprüfen und steuern Sie Indexierungsanforderungen oder erhöhen Sie die Clusterressourcen.
ThreadpoolSearchQueue Durchschnitt ist >= 500 für 1 Minute, 1 Mal hintereinander Der Cluster erlebt eine hohe Suchparallelität. Überlegen Sie, Ihren Cluster zu skalieren. Sie können auch die Größe der Suchwarteschlange erhöhen, aber eine übermäßige Erhöhung kann zu Fehlern außerhalb des Speichers führen.
ThreadpoolSearchQueue Maximum ist >= 5000 für 1 Minute, 1 Mal hintereinander
Die Erhöhung der ThreadpoolSearchRejected SUM ist >=1{ mathematischer Ausdruck DIFF ( )} für 1 Minute, 1 Mal hintereinander Diese Alarme benachrichtigen Sie über Domain-Probleme, die sich auf Leistung und Stabilität auswirken können.
Die Erhöhung der ThreadpoolWriteRejected SUM ist >=1{ mathematischer Ausdruck DIFF ( )} für 1 Minute, 1 Mal hintereinander
Anmerkung

Wenn Sie nur Metriken anzeigen möchten, siehe Überwachung von OpenSearch Cluster-Metriken mit Amazon CloudWatch.

Andere Alarme, die Sie in Betracht ziehen könnten

Erwägen Sie, die folgenden Alarme zu konfigurieren, je nachdem, welche OpenSearch Service-Features Sie regelmäßig verwenden.

Alarm Problem
WarmFreeStorageSpace Minimum ist <= 10240 für 1 Minute, 1 Mal hintereinander Ein - UltraWarm Knoten in Ihrem Cluster hat bis zu 10 GiB freien Speicherplatz. Siehe Zu wenig verfügbarer Speicherplatz. Dieser Wert ist in MiB angegeben. Anstatt 10240 empfehlen wir daher, ihn auf 10 % des Speicherplatzes für jeden UltraWarm Knoten festzulegen.
HotToWarmMigrationQueueSize ist >= 20 für 1 Minute, 3 Mal hintereinander

Eine hohe Anzahl von Indizes bewegen sich gleichzeitig vom Hot- zum UltraWarm Speicher. Überlegen Sie, Ihren Cluster zu skalieren.

HotToWarmMigrationSuccessLatency ist >= 1 Tag, 1 Mal hintereinander

Konfigurieren Sie diesen Alarm so, dass Sie benachrichtigt werden, wenn die HotToWarmMigrationSuccessCount-x-Latenz mehr als 24 Stunden beträgt, wenn Sie versuchen, tägliche Indizes zu rollen.

WarmJVMMemoryPressure Maximum ist >= 95 % für 1 Minute, 3 Mal hintereinander Der Cluster könnte Fehler aufgrund von unzureichendem Speicherplatz erhalten, wenn die Nutzung zunimmt. Ziehen Sie eine vertikale Skalierung in Betracht. Der OpenSearch Service verwendet die Hälfte des RAM einer Instance für den Java-Heap bis zu einer Heap-Größe von 32 GiB. Sie können Instances bis zu 64 GiB RAM vertikal skalieren. Dann können Sie eine horizontale Skalierung durchführen, indem Sie Instances hinzufügen.
WarmOldGenJVMMemoryPressure Maximum ist >= 80 % für 1 Minute, 3 Mal hintereinander
WarmToColdMigrationQueueSize ist >= 20 für 1 Minute, 3 Mal hintereinander

Eine hohe Anzahl von Indizes bewegen sich gleichzeitig von UltraWarm zu Cold Storage. Überlegen Sie, Ihren Cluster zu skalieren.

HotToWarmMigrationFailureCount ist >= 1 für 1 Minute, 1 Mal hintereinander

Migrationen können während Snapshots, Shard-Verlagerungen oder erzwungenen Zusammenführungen fehlschlagen. Fehler bei Snapshots oder Shard-Verlagerungen sind in der Regel auf Knotenfehler oder S3-Konnektivitätsprobleme zurückzuführen. Ein Mangel an Speicherplatz ist in der Regel die zugrunde liegende Ursache für Fehler bei erzwungenen Zusammenführungen.

WarmToColdMigrationFailureCount ist >= 1 für 1 Minute, 1 Mal hintereinander Migrationen schlagen normalerweise fehl, wenn Versuche, Indexmetadaten auf Cold Storage zu migrieren, fehlschlagen. Fehler können auch auftreten, wenn der Warm-Indexcluster-Status entfernt wird.
WarmToColdMigrationLatency ist >= 1 Tag, 1 Mal hintereinander

Konfigurieren Sie diesen Alarm so, dass Sie benachrichtigt werden, wenn die WarmToColdMigrationSuccessCount-x-Latenz mehr als 24 Stunden beträgt, wenn Sie versuchen, tägliche Indizes zu rollen.

AlertingDegraded ist >= 1 für 1 Minute, 1 Mal hintereinander

Entweder ist der Warnungsindex rot, oder ein oder mehrere Knoten sind nicht im Zeitplan.

ADPluginUnhealthy ist >= 1 für 1 Minute, 1 Mal hintereinander

Das Plug-In zur Anomalieerkennung funktioniert nicht ordnungsgemäß, entweder aufgrund hoher Fehlerraten oder weil einer der verwendeten Indizes rot ist.

AsynchronousSearchFailureRate ist >= 1 für 1 Minute, 1 Mal hintereinander

Mindestens eine asynchrone Suche ist in letzter Minute fehlgeschlagen, was wahrscheinlich bedeutet, dass der Koordinatorknoten fehlgeschlagen ist. Der Lebenszyklus einer asynchronen Suchanfrage wird ausschließlich auf dem Koordinatorknoten verwaltet. Wenn der Koordinator ausfällt, schlägt die Anforderung fehl.

AsynchronousSearchStoreHealth ist >= 1 für 1 Minute, 1 Mal hintereinander

Der Zustand des asynchronen Reaktionsspeichers für die asynchrone Suche im anhaltenden Index ist rot. Möglicherweise speichern Sie große asynchrone Antworten, die einen Cluster destabilisieren können. Versuchen Sie, Ihre asynchronen Suchantworten auf 10 MB oder weniger zu beschränken.

SQLUnhealthy ist >= 1 für 1 Minute, 3 Mal hintereinander

Das SQL-Plugin gibt 5xx-Antwortcodes zurück oder übergibt ungültige Abfrage-DSL an OpenSearch. Beheben Sie Probleme mit den Anforderungen, die Ihre Clients an das Plug-in stellen.

LTRStatus.red ist >= 1 für 1 Minute, 1 Mal hintereinander

Mindestens einer der Indizes, die zum Ausführen des Plug-ins „Learning to Rank“ erforderlich sind, ist nicht funktionsfähig, da primäre Shards fehlen.