Andere Alarme, die Sie in Betracht ziehen könnten

Empfohlene CloudWatch Alarme für Amazon OpenSearch Service

CloudWatch Alarme führen eine Aktion aus, wenn eine CloudWatch Metrik für einen bestimmten Zeitraum einen bestimmten Wert überschreitet. Möglicherweise möchten Sie Ihnen eine E-Mail AWS senden, wenn Ihr Cluster-Integritätsstatus red länger als eine Minute andauert. Dieser Abschnitt enthält einige empfohlene Alarme für Amazon OpenSearch Service und wie Sie darauf reagieren können.

Sie können diese Alarme automatisch einrichten mit AWS CloudFormation. Einen Beispielstapel finden Sie im entsprechenden GitHubRepository.

Anmerkung

Wenn Sie den CloudFormation Stack bereitstellen, sind die KMSKeyInaccessible Alarme KMSKeyError und in einem bestimmten Insufficient Data Zustand vorhanden, da diese Metriken nur angezeigt werden, wenn bei einer Domain ein Problem mit ihrem Verschlüsselungsschlüssel auftritt.

Weitere Informationen zur Konfiguration von Alarmen finden Sie unter CloudWatchAmazon-Alarme erstellen im CloudWatch Amazon-Benutzerhandbuch.

Alarm	Problem
`ClusterStatus.red` Maximum ist >= 1 für 1 Minute, 1 Mal hintereinander	Mindestens ein primärer Shard und dessen Replikate sind keinem Knoten zugewiesen. Siehe Roter Cluster-Status.
`ClusterStatus.yellow` Maximum ist >= 1 für 1 Minute, 5 Mal hintereinander	Mindestens ein Replikat-Shard ist nicht einem Knoten zugewiesen. Siehe Gelber Cluster-Status.
`FreeStorageSpace` Minimum ist <= 20480 für 1 Minute, 1 Mal hintereinander	Ein Knoten in Ihrem Cluster hat nur noch 20 GiB freien Speicherplatz. Siehe Zu wenig verfügbarer Speicherplatz. Dieser Wert wird in MiB angegeben, statt 20480 empfehlen wir deshalb eine Einstellung auf 25 % Ihres Speicherplatzes pro Knoten.
`ClusterIndexWritesBlocked` ist >= 1 für 5 Minuten, 1 Mal hintereinander	Ihr Cluster blockiert Schreibanforderungen. Siehe ClusterBlockException.
`Nodes` Minimum ist < x für 1 Tag, 1 Mal hintereinander	x ist die Anzahl der Knoten in Ihrem Cluster. Dieser Alarm gibt an, dass mindestens ein Knoten in Ihrem Cluster für einen Tag nicht erreichbar war. Siehe Fehlgeschlagene Cluster-Knoten.
`AutomatedSnapshotFailure` Maximum ist >= 1 für 1 Minute, 1 Mal hintereinander	Ein automatisierter Snapshot ist fehlgeschlagen. Dieser Fehler ist häufig das Ergebnis eines roten Cluster-Integritätsstatus. Siehe Roter Cluster-Status. Für eine Zusammenfassung aller automatischen Snapshots und einige Informationen zu Ausfällen können Sie auch einen der folgenden Schritte ausprobieren: `GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all`
`CPUUtilization` oder `WarmCPUUtilization` Maximum ist >= 80 % für 15 Minuten, 3 Mal hintereinander	Eine 100%ige CPU-Auslastung kann manchmal auftreten, aber eine anhaltend hohe Auslastung ist problematisch. Ziehen Sie die Verwendung von größeren Instance-Typen oder das Hinzufügen von Instances in Betracht.
`JVMMemoryPressure` Maximum ist >= 95 % für 1 Minute, 3 Mal hintereinander	Der Cluster könnte Fehler aufgrund von unzureichendem Speicherplatz erhalten, wenn die Nutzung zunimmt. Erwägen Sie eine vertikale Skalierung. OpenSearch Der Dienst verwendet die Hälfte des RAM einer Instanz für den Java-Heap, bis zu einer Heap-Größe von 32 GiB. Sie können Instances bis zu 64 GiB RAM vertikal skalieren. Dann können Sie eine horizontale Skalierung durchführen, indem Sie Instances hinzufügen.
`OldGenJVMMemoryPressure` Maximum ist >= 80 % für 1 Minute, 3 Mal hintereinander
`MasterCPUUtilization` Maximum ist >= 50 % für 15 Minuten, 3 Mal hintereinander	Ziehen Sie die Verwendung von größeren Instance-Typen für Ihre dedizierten Hauptknoten in Betracht. Aufgrund ihrer Rolle für die Cluster-Stabilität und Blau/Grün-Bereitstellungen sollten dedizierte Hauptknoten eine geringere CPU-Nutzung als Datenknoten haben.
`MasterJVMMemoryPressure` Maximum ist >= 95 % für 1 Minute, 3 Mal hintereinander
`MasterOldGenJVMMemoryPressure` Maximum ist >= 80 % für 1 Minute, 3 Mal hintereinander
`KMSKeyError` ist >= 1 für 1 Minute, 1 Mal hintereinander	Der AWS KMS Verschlüsselungsschlüssel, der zum Verschlüsseln ruhender Daten in Ihrer Domain verwendet wird, ist deaktiviert. Reaktivieren Sie es, um den normalen Betrieb wiederherzustellen. Weitere Informationen finden Sie unter Verschlüsselung von Daten im Ruhezustand für Amazon OpenSearch Service.
`KMSKeyInaccessible` ist >= 1 für 1 Minute, 1 Mal hintereinander	Der AWS KMS Verschlüsselungsschlüssel, der zum Verschlüsseln von gespeicherten Daten in Ihrer Domain verwendet wird, wurde gelöscht oder der Service wurde nicht mehr gewährt. OpenSearch Für Domains, die sich in diesem Zustand befinden, ist die Wiederherstellung nicht möglich. Wenn Sie jedoch über einen manuellen Snapshot verfügen, können Sie diesen für die Migration zu einer neuen Domain verwenden. Weitere Informationen hierzu finden Sie unter Verschlüsselung von Daten im Ruhezustand für Amazon OpenSearch Service.
`shards.active` ist >= 30000 für 1 Minute, 1 Mal hintereinander	Die Gesamtzahl der aktiven primären und Replikat-Shards ist größer als 30.000. Möglicherweise rotieren Sie Ihre Indizes zu häufig. Erwägen Sie, ISM zu verwenden, um Indizes zu entfernen, sobald sie ein bestimmtes Alter erreichen.
`5xx` Alarme >= 10 % von `OpenSearchRequests`.	Ein oder mehrere Datenknoten sind möglicherweise überlastet oder Anfragen können innerhalb des Zeitraums im Leerlauf nicht abgeschlossen werden. Erwägen Sie, zu größeren Instance-Typen zu wechseln oder dem Cluster weitere Knoten hinzuzufügen. Bestätigen Sie Bewährte Methoden für Shard- und Cluster-Architektur.
`MasterReachableFromNode`Der Höchstwert ist < 1 für 5 Minuten, 1 Mal hintereinander	Dieser Alarm zeigt an, dass der Hauptknoten angehalten wurde oder nicht erreichbar ist. Diese Ausfälle sind in der Regel auf ein Problem mit der Netzwerkkonnektivität oder auf ein AWS Abhängigkeitsproblem zurückzuführen.
`ThreadpoolWriteQueue` Durchschnitt ist >= 100 für 1 Minute, 1 Mal hintereinander	Der Cluster erlebt eine hohe Indexierungs-Parallelität. Überprüfen und steuern Sie Indexierungsanforderungen oder erhöhen Sie die Clusterressourcen.
`ThreadpoolSearchQueue` Durchschnitt ist >= 500 für 1 Minute, 1 Mal hintereinander	Der Cluster erlebt eine hohe Suchparallelität. Überlegen Sie, Ihren Cluster zu skalieren. Sie können auch die Größe der Suchwarteschlange erhöhen, aber eine übermäßige Erhöhung kann zu Fehlern außerhalb des Speichers führen.
`ThreadpoolSearchQueue` Maximum ist >= 5000 für 1 Minute, 1 Mal hintereinander
Die Erhöhung der `ThreadpoolSearchRejected` SUMME beträgt >=1 {mathematischer Ausdruck DIFF ()} für 1 Minute, 1 Mal hintereinander	Diese Alarme benachrichtigen Sie über Domain-Probleme, die sich auf Leistung und Stabilität auswirken können.
Die Erhöhung von `ThreadpoolWriteRejected` SUM beträgt >=1 {mathematischer Ausdruck DIFF ()} für 1 Minute, 1 Mal hintereinander

Anmerkung

Wenn Sie nur Metriken anzeigen möchten, siehe Überwachung von OpenSearch Cluster-Metriken mit Amazon CloudWatch.

Andere Alarme, die Sie in Betracht ziehen könnten

Erwägen Sie, je nachdem, welche OpenSearch Servicefunktionen Sie regelmäßig nutzen, die folgenden Alarme zu konfigurieren.

Alarm	Problem
`WarmFreeStorageSpace`ist >= 10%	Sie haben 10% Ihres gesamten freien Warmspeichers erreicht. `WarmFreeStorageSpace`misst die Summe Ihres freien warmen Speicherplatzes in MiB. UltraWarm verwendet Amazon S3 anstelle von angeschlossenen Festplatten.
`HotToWarmMigrationQueueSize` ist >= 20 für 1 Minute, 3 Mal hintereinander	Eine große Anzahl von Indizes wird gleichzeitig vom Hot-in den Speicherbereich verschoben. UltraWarm Überlegen Sie, Ihren Cluster zu skalieren.
`HotToWarmMigrationSuccessLatency` ist >= 1 Tag, 1 Mal hintereinander	Konfigurieren Sie diesen Alarm so, dass Sie benachrichtigt werden, wenn die `HotToWarmMigrationSuccessCount`-x-Latenz mehr als 24 Stunden beträgt, wenn Sie versuchen, tägliche Indizes zu rollen.
`WarmJVMMemoryPressure` Maximum ist >= 95 % für 1 Minute, 3 Mal hintereinander	Der Cluster könnte Fehler aufgrund von unzureichendem Speicherplatz erhalten, wenn die Nutzung zunimmt. Ziehen Sie eine vertikale Skalierung in Betracht. OpenSearch Der Dienst verwendet die Hälfte des RAM einer Instanz für den Java-Heap, bis zu einer Heap-Größe von 32 GiB. Sie können Instances bis zu 64 GiB RAM vertikal skalieren. Dann können Sie eine horizontale Skalierung durchführen, indem Sie Instances hinzufügen.
`WarmOldGenJVMMemoryPressure` Maximum ist >= 80 % für 1 Minute, 3 Mal hintereinander
`WarmToColdMigrationQueueSize` ist >= 20 für 1 Minute, 3 Mal hintereinander	Eine große Anzahl von Indizes wird gleichzeitig vom UltraWarm Cold Storage in den Cold Storage verschoben. Überlegen Sie, Ihren Cluster zu skalieren.
`HotToWarmMigrationFailureCount` ist >= 1 für 1 Minute, 1 Mal hintereinander	Migrationen können während Snapshots, Shard-Verlagerungen oder erzwungenen Zusammenführungen fehlschlagen. Fehler bei Snapshots oder Shard-Verlagerungen sind in der Regel auf Knotenfehler oder S3-Konnektivitätsprobleme zurückzuführen. Ein Mangel an Speicherplatz ist in der Regel die zugrunde liegende Ursache für Fehler bei erzwungenen Zusammenführungen.
`WarmToColdMigrationFailureCount` ist >= 1 für 1 Minute, 1 Mal hintereinander	Migrationen schlagen normalerweise fehl, wenn Versuche, Indexmetadaten auf Cold Storage zu migrieren, fehlschlagen. Fehler können auch auftreten, wenn der Warm-Indexcluster-Status entfernt wird.
`WarmToColdMigrationLatency` ist >= 1 Tag, 1 Mal hintereinander	Konfigurieren Sie diesen Alarm so, dass Sie benachrichtigt werden, wenn die `WarmToColdMigrationSuccessCount`-x-Latenz mehr als 24 Stunden beträgt, wenn Sie versuchen, tägliche Indizes zu rollen.
`AlertingDegraded` ist >= 1 für 1 Minute, 1 Mal hintereinander	Entweder ist der Warnungsindex rot, oder ein oder mehrere Knoten sind nicht im Zeitplan.
`ADPluginUnhealthy` ist >= 1 für 1 Minute, 1 Mal hintereinander	Das Plug-In zur Anomalieerkennung funktioniert nicht ordnungsgemäß, entweder aufgrund hoher Fehlerraten oder weil einer der verwendeten Indizes rot ist.
`AsynchronousSearchFailureRate` ist >= 1 für 1 Minute, 1 Mal hintereinander	Mindestens eine asynchrone Suche ist in letzter Minute fehlgeschlagen, was wahrscheinlich bedeutet, dass der Koordinatorknoten fehlgeschlagen ist. Der Lebenszyklus einer asynchronen Suchanfrage wird ausschließlich auf dem Koordinatorknoten verwaltet. Wenn der Koordinator ausfällt, schlägt die Anforderung fehl.
`AsynchronousSearchStoreHealth` ist >= 1 für 1 Minute, 1 Mal hintereinander	Der Zustand des asynchronen Reaktionsspeichers für die asynchrone Suche im anhaltenden Index ist rot. Möglicherweise speichern Sie große asynchrone Antworten, die einen Cluster destabilisieren können. Versuchen Sie, Ihre asynchronen Suchantworten auf 10 MB oder weniger zu beschränken.
`SQLUnhealthy` ist >= 1 für 1 Minute, 3 Mal hintereinander	Das SQL-Plug-In gibt 5 Xx-Antwortcodes zurück oder übergibt eine ungültige DSL-Abfrage an. OpenSearch Beheben Sie Probleme mit den Anforderungen, die Ihre Clients an das Plug-in stellen.
`LTRStatus.red` ist >= 1 für 1 Minute, 1 Mal hintereinander	Mindestens einer der Indizes, die zum Ausführen des Plug-ins „Learning to Rank“ erforderlich sind, ist nicht funktionsfähig, da primäre Shards fehlen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Dedizierte Hauptknoten

Allgemeine Hinweise