Allarmi CloudWatch consigliati per Amazon OpenSearch Service - Amazon OpenSearch Service

Allarmi CloudWatch consigliati per Amazon OpenSearch Service

Gli allarmi CloudWatch eseguono un'operazione quando un parametro di CloudWatch supera un valore specificato per un certo periodo di tempo. Ad esempio, potrebbe essere opportuno ricevere da AWS un'e-mail se lo stato del cluster è red per più di un minuto. In questa sezione sono riportati alcuni allarmi consigliati per Amazon OpenSearch Service e le indicazioni su come rispondere a tali allarmi.

È possibile implementare automaticamente questi allarmi utilizzando AWS CloudFormation. Per una pila di esempio, consulta questo repository GitHub.

Per ulteriori informazioni sulla configurazione di allarmi, consulta Creazione di allarmi Amazon CloudWatch nella Guida per l'utente di Amazon CloudWatch.

Allarme Problema
ClusterStatus.red il massimo è >= 1 per 1 minuto, 1 periodo di tempo consecutivo Almeno una partizioni primaria e le relative repliche non sono assegnate a un nodo. Per informazioni, consultare Cluster in stato rosso.
ClusterStatus.yellow il massimo è >= 1 per 1 minuto, 1 periodo di tempo consecutivo Almeno una partizione di replica non è allocata per un nodo. Per informazioni, consultare Stato giallo del cluster.
FreeStorageSpace minimo è <= 20480 per 1 minuto, 1 periodo di tempo consecutivo Un nodo nel cluster è legato ai 20 GiB di spazio di archiviazione gratuito. Per informazioni, consultare Mancanza di spazio di archiviazione disponibile. Tale valore viene espresso in MiB, perciò anziché su 20480, consigliamo di impostarlo al 25% dello spazio di archiviazione per ogni nodo.
ClusterIndexWritesBlocked è >= 1 per 5 minuti, 1 periodo di tempo consecutivo Il cluster sta bloccando le richieste di scrittura. Per informazioni, consultare ClusterBlockException.
Nodes minimo è x per 1 giorno, 1 periodo di tempo consecutivo x è il numero di nodi del cluster. Questo allarme indica che almeno un nodo nel cluster è stato irraggiungibile per un giorno. Per informazioni, consultare Nodi cluster con errori.
AutomatedSnapshotFailure il massimo è >= 1 per 1 minuto, 1 periodo di tempo consecutivo Uno snapshot automatico ha restituito un errore. Questo errore è spesso il risultato di uno stato del cluster rosso. Per informazioni, consultare Cluster in stato rosso.

Per un riepilogo di tutti gli snapshot automatici e alcune informazioni sui fallimenti, è possibile provare una delle seguenti richieste:

GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all
CPUUtilization o WarmCPUUtilization massimo è >= 80% per 15 minuti, 3 periodi di tempo consecutivi Il 100% di utilizzo della CPU non è raro, ma un utilizzo costantemente elevato è problematico. Consigliamo di utilizzare tipi di istanza più grandi o aggiungere istanze.
JVMMemoryPressure il massimo è >= 95% per 1 minuto, 3 volte consecutive Sui cluster potrebbero verificarsi errori di esaurimento della memoria nel caso in cui l'utilizzo aumenti. Considerare il dimensionamento verticale. OpenSearch Service impiega la metà della RAM di un'istanza per l'heap Java (fino a una dimensione dell'heap di 32 GiB). Puoi scalare le istanze verticalmente fino a 64 GiB di RAM e poi scalare orizzontalmente aggiungendo le istanze.
OldGenJVMMemoryPressure il massimo è >= 80% per 1 minuto, 3 volte consecutive
MasterCPUUtilization il massimo è >= 50% per 15 minuti, 3 periodi di tempo consecutivi Potresti utilizzare tipi di istanza di dimensioni maggiori per i tuoi nodi master dedicati. A causa del loro ruolo nella stabilità del cluster e nelle distribuzioni blu/verde, i nodi master dedicati devono avere un utilizzo ridotto della CPU rispetto ai nodi di dati.
MasterJVMMemoryPressure il massimo è >= 95% per 1 minuto, 3 volte consecutive
MasterOldGenJVMMemoryPressure il massimo è >= 80% per 1 minuto, 3 volte consecutive
KMSKeyError è >= 1 per 1 minuto, 1 periodo di tempo consecutivo La chiave di crittografia AWS KMS utilizzata per crittografare i dati a riposo nel tuo dominio è disabilitata. Riabilitala per ripristinare le normali operazioni. Per ulteriori informazioni, consultare Crittografia dei dati a riposo per il servizio OpenSearch di Amazon.
KMSKeyInaccessible è >= 1 per 1 minuto, 1 periodo di tempo consecutivo La chiave di crittografia AWS KMS utilizzata per crittografare i dati a riposo nel dominio è stata eliminata o ne sono state revocate le autorizzazioni sul servizio OpenSearch. Non puoi recuperare domini che sono in questo stato, ma se disponi di una snapshot manuale, puoi utilizzarla per eseguire la migrazione a un nuovo dominio. Per ulteriori informazioni, consultare Crittografia dei dati a riposo per il servizio OpenSearch di Amazon.
shards.active è >= 30000 per 1 minuto, 1 periodo di tempo consecutivo

Il numero totale di partizioni primarie e di replica attive è maggiore di 30.000. È possibile che gli indici vengano ruotati troppo frequentemente. Prendi in considerazione l'utilizzo di ISM per rimuovere gli indici una volta raggiunta un'età specifica.

Allarmi 5xx >= 10% di OpenSearchRequests Uno o più nodi dati potrebbero essere sovraccarichi o le richieste non vengono completate entro il periodo di timeout inattivo. Considera il passaggio a tipi di istanza più grandi o di aggiungere più nodi al cluster. Conferma che stai seguendo le best practice per l'architettura di partizioni e cluster.
MasterReachableFromNode è < 1 per 1 giorno, 1 periodo di tempo consecutivo

Questo avviso indica che il nodo principale è stato arrestato o non è raggiungibile. Questi errori sono in genere dovuti a un problema di connessione di rete o a un problema di dipendenza di AWS.

ThreadpoolWriteQueue medio è >= 100 per 1 minuto, 1 periodo di tempo consecutivo Il cluster sta riscontrando un'elevata concorrenza di indicizzazione. Esamina e controlla le richieste di indicizzazione o aumenta le risorse del cluster.
ThreadpoolSearchQueue medio è >= 500 per 1 minuto, 1 periodo di tempo consecutivo Il cluster sta riscontrando un'elevata concorrenza di ricerca. Considera il dimensionamento del cluster. È inoltre possibile aumentare le dimensioni della coda di ricerca, ma un aumento eccessivo può causare errori di memoria.
ThreadpoolSearchQueue massimo è >= 5000 per 1 minuto, 1 periodo di tempo consecutivo
ThreadpoolSearchRejected massimo è >= 1 per 1 minuto, 1 volta consecutiva Questi allarmi ti informano di problemi di dominio che potrebbero influire sulle prestazioni e sulla stabilità.
ThreadpoolWriteRejected massimo è >= 1 per 1 minuto, 1 volta consecutiva
Nota

Se si desidera soltanto visualizzare i parametri, consultare Monitoraggio dei parametri del cluster OpenSearch con Amazon CloudWatch.

Altri allarmi che potresti prendere in considerazione

Considera la configurazione dei seguenti allarmi a seconda delle funzionalità di OpenSearch Service utilizzate regolarmente.

Allarme Problema
WarmFreeStorageSpace minimo è <= 10240 per 1 minuto, 1 periodo di tempo consecutivo Un nodo UltraWarm nel cluster è legato ai 10 GiB di spazio di archiviazione gratuito. Per informazioni, consultare Mancanza di spazio di archiviazione disponibile. Tale valore è espresso in MiB, perciò anziché 10240, consigliamo di impostarlo sul 10% dello spazio di archiviazione per ogni nodo UltraWarm.
HotToWarmMigrationQueueSize è >= 20 per 1 minuto, 3 periodi di tempo consecutivi

Un numero elevato di indici si sta spostando contemporaneamente dallo storage hot a quello UltraWarm. Considera il dimensionamento del cluster.

HotToWarmMigrationSuccessLatency è >= 1 giorno, 1 periodo di tempo consecutivo

Configura questo allarme in modo da ricevere una notifica se la latenza x di HotToWarmMigrationSuccessCount è superiore a 24 ore, se stai cercando di utilizzare indici giornalieri.

WarmJVMMemoryPressure il massimo è >= 95% per 1 minuto, 3 volte consecutive Sui cluster potrebbero verificarsi errori di esaurimento della memoria nel caso in cui l'utilizzo aumenti. Considerare il dimensionamento verticale. OpenSearch Service impiega la metà della RAM di un'istanza per l'heap Java (fino a una dimensione dell'heap di 32 GiB). Puoi scalare le istanze verticalmente fino a 64 GiB di RAM e poi scalare orizzontalmente aggiungendo le istanze.
WarmOldGenJVMMemoryPressure il massimo è >= 80% per 1 minuto, 3 volte consecutive
WarmToColdMigrationQueueSize è >= 20 per 1 minuto, 3 periodi di tempo consecutivi

Un numero elevato di indici si sta spostando contemporaneamente dallo storage UltraWarm allo storage a freddo. Considera il dimensionamento del cluster.

HotToWarmMigrationFailureCount è >= 1 per 1 minuto, 1 periodo di tempo consecutivo

Le migrazioni potrebbero non riuscire durante gli snapshot, le rilocazioni di partizioni o le fusioni forzate. Gli errori durante gli snapshot o il trasferimento di partizioni sono in genere dovuti a errori dei nodi o a problemi di connettività S3. La mancanza di spazio su disco è solitamente la causa sottostante degli errori di unioni forzate.

WarmToColdMigrationFailureCount è >= 1 per 1 minuto, 1 periodo di tempo consecutivo Le migrazioni in genere falliscono quando i tentativi di migrazione dei metadati dell'indice nell'archiviazione a freddo non riescono. È possibile che si verifichino degli errori anche durante la rimozione dello stato del cluster di indice a caldo.
WarmToColdMigrationLatency è >= 1 giorno, 1 periodo di tempo consecutivo

Configura questo allarme in modo da ricevere una notifica se la latenza x di WarmToColdMigrationSuccessCount è superiore a 24 ore, se stai cercando di utilizzare indici giornalieri.

AlertingDegraded è >= 1 per 1 minuto, 1 periodo di tempo consecutivo

L'indice di avviso è rosso oppure uno o più nodi non sono pianificati.

ADPluginUnhealthy è >= 1 per 1 minuto, 1 periodo di tempo consecutivo

Il plugin di rilevamento delle anomalie non funziona correttamente a causa di alti tassi di errore o perché uno degli indici utilizzati è rosso.

AsynchronousSearchFailureRate è >= 1 per 1 minuto, 1 periodo di tempo consecutivo

Almeno una ricerca asincrona non è riuscita nell'ultimo minuto, il che significa che il nodo coordinatore non è riuscito. Il ciclo di vita di una richiesta di ricerca asincrona viene gestito esclusivamente sul nodo del coordinatore, quindi se il coordinatore si interrompe, la richiesta non riesce.

AsynchronousSearchStoreHealth è >= 1 per 1 minuto, 1 periodo di tempo consecutivo

L'integrità dell'archivio delle risposte di ricerca asincrona nell'indice persistente è rossa. È possibile che si stiano memorizzando risposte asincrone di grandi dimensioni, che possono destabilizzare un cluster. Cerca di limitare le risposte di ricerca asincrone a 10 MB o meno.

SQLUnhealthy è >= 1 per 1 minuto, 3 periodi di tempo consecutivi

Il plug-in SQL sta restituendo codici di risposta 5xx o sta inviando un DSL di query non valido a OpenSearch. Risolvi i problemi relativi alle richieste che i client stanno facendo al plug-in.

LTRStatus.red è >= 1 per 1 minuto, 1 periodo di tempo consecutivo

Almeno uno degli indici necessari per eseguire il plugin Learning to Rank (Imparare a classificare) ha partizioni primarie mancanti e non è funzionante.