Alarmes recomendados do CloudWatch para Amazon OpenSearch Service - Amazon OpenSearch Service

Alarmes recomendados do CloudWatch para Amazon OpenSearch Service

Os alarmes do CloudWatch executam uma ação quando uma métrica do CloudWatch excede um valor especificado por algum período. Por exemplo, o AWS pode enviar um e-mail se o status de integridade do cluster permanecer red por mais do que um minuto. Esta seção inclui alguns alarmes recomendados para o Amazon OpenSearch Service e como responder a eles.

Você pode instalar automaticamente esses alarmes usando AWS CloudFormation. Para obter uma pilha de amostras, consulte o repositório do GitHub.

Para obter mais informações sobre configuração de alarmes, consulte Criação de alarmes do Amazon CloudWatch no Manual do usuário do Amazon CloudWatch.

Alarme Problema
Máximo de ClusterStatus.red é >= 1 por 1 minuto, 1 período consecutivo Pelo menos um fragmento principal e suas réplicas não estão alocados para um nó. Consulte Status de cluster vermelho.
O máximo de ClusterStatus.yellow é >= um por um minuto, cinco vezes consecutivas Pelo menos um fragmento de réplica não está alocado para um nó. Consulte Status de cluster amarelo.
Mínimo de FreeStorageSpace é <= 20480 por 1 minuto, 1 período consecutivo Um nó no seu cluster tem 20 GiB de espaço de armazenamento livre. Consulte Falta de espaço de armazenamento disponível. Esse valor é em MiB; portanto, em vez de 20.480, recomendamos defini-lo como 25% do espaço de armazenamento para cada nó.
ClusterIndexWritesBlocked é >= 1 por 5 minutos, 1 período consecutivo O cluster está bloqueando solicitações de gravação. Consulte ClusterBlockException.
Mínimo de Nodes é < x por 1 dia, 1 período consecutivo x é o número de nós em seu cluster. Esse alarme indica que pelo menos um nó no cluster permaneceu inacessível por um dia. Consulte Nós de cluster com falha.
Máximo de AutomatedSnapshotFailure é >= 1 por 1 minuto, 1 período consecutivo Ocorreu falha em um snapshot automatizado. Essa falha normalmente é o resultado de um status de integridade vermelho do cluster. Consulte Status de cluster vermelho.

Para obter um resumo de todos os snapshots automatizados e algumas informações sobre falhas, experimenteo uma das seguintes solicitações:

GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all
O máximo de CPUUtilization ou WarmCPUUtilization é >= 80% por 15 minutos, 3 períodos consecutivos Às vezes, pode ocorrer 100% de utilização da CPU, mas o alto uso sustentado é um problema. Considere o uso de tipos de instância maiores ou a adição de instâncias.
O máximo de JVMMemoryPressure é >= 95% por um minuto, três vezes consecutivas O cluster poderá apresentar erros de memória insuficiente se o uso aumentar. Considere a escalabilidade vertical. O OpenSearch Service usa metade da RAM de uma instância para o heap do Java, com um tamanho de heap de 32 GiB. Você pode dimensionar instâncias verticalmente até 64 GiB de RAM, sendo que nesse ponto você poderá dimensionar horizontalmente adicionando instâncias.
O máximo de OldGenJVMMemoryPressure é >= 80% por um minuto, três vezes consecutivas
O máximo de MasterCPUUtilization é >= 50% por 15 minutos, 3 períodos consecutivos Considere o uso de tipos de instância maiores para os nós principais dedicados. Devido à sua função na estabilidade do cluster e implantações azuis/verdes, os nós principais dedicados devem ter um uso de CPU menor do que os nós de dados.
O máximo de MasterJVMMemoryPressure é >= 95% por um minuto, três vezes consecutivas
O máximo de MasterOldGenJVMMemoryPressure é >= 80% por um minuto, três vezes consecutivas
KMSKeyError é >= 1 por 1 minuto, 1 período consecutivo A chave de criptografia do AWS KMS usada para criptografar dados em repouso em seu domínio está desabilitada. Reative-a para restaurar as operações normais. Para mais informações, consulte Criptografia de dados em repouso para o Amazon OpenSearch Service.
KMSKeyInaccessible é >= 1 por 1 minuto, 1 período consecutivo A chave de criptografia do AWS KMS usada para criptografar dados em repouso em seu domínio foi excluída ou revogou suas concessões para o OpenSearch Service. Você não pode recuperar os domínios que estejam nesse estado. Porém, se tiver um snapshot manual, você poderá usá-lo para migrar para um novo domínio. Para saber mais, consulte Criptografia de dados em repouso para o Amazon OpenSearch Service.
shards.active é >= 30.000 por 1 minuto, 1 período consecutivo

O número total de fragmentos ativos primários e de réplica é maior que 30.000. Talvez você esteja alternando seus índices com muita frequência. Considere usar o ISM para remover índices quando atingirem um período de validade específico.

Alarmes 5xx >= 10% de OpenSearchRequests Um ou mais nós de dados podem estar sobrecarregados ou as solicitações não são concluídas dentro do período de tempo limite ocioso. Considere alternar para tipos de instância maiores ou adicionar mais nós ao cluster. Confirme se você está seguindo as práticas recomendadas para arquitetura de fragmentos e clusters.
MasterReachableFromNode é < 1 por 1 dia, 1 período consecutivo

Esse alarme indica que o nó principal foi interrompido ou está fora do alcance. Essas falhas normalmente são o resultado de um problema de conectividade da rede ou de dependência da AWS.

A média de ThreadpoolWriteQueue é >= 100 por 1 minuto, 1 período consecutivo O cluster está passando por alta simultaneidade de indexação. Revise e controle as solicitações de indexação ou aumente os recursos do cluster.
A média de ThreadpoolSearchQueue é >= 500 por 1 minuto, 1 período consecutivo O cluster está passando por alta simultaneidade de pesquisa. Avalie a possibilidade de escalar seu cluster. Você também pode aumentar o tamanho da fila de pesquisa, mas aumentá-la excessivamente pode causar erros de falta de memória.
O máximo de ThreadpoolSearchQueue é >= 5.000 por 1 minuto, 1 período consecutivo
O máximo de ThreadpoolSearchRejected é >= 1 por um minuto, uma vez consecutiva Esses alarmes notificam você sobre problemas de domínio que podem afetar a performance e a estabilidade.
O máximo de ThreadpoolWriteRejected é >= 1 por um minuto, uma vez consecutiva
nota

Se você só desejar visualizar métricas, consulte Monitorar métricas de cluster do OpenSearch com o Amazon CloudWatch.

Outros alarmes que você pode considerar

Avalie a possibilidade de configurar os seguintes alarmes, dependendo de quais recursos do OpenSearch Service você usa regularmente.

Alarme Problema
O mínimo de WarmFreeStorageSpace é <= 10.240 por 1 minuto, 1 período consecutivo Um nó UltraWarm em seu cluster tem 10 GiB de espaço de armazenamento livre. Consulte Falta de espaço de armazenamento disponível. Esse valor é em MiB; portanto, em vez de 10.240, recomendamos defini-lo como 10% do espaço de armazenamento para cada nó UltraWarm.
HotToWarmMigrationQueueSize é >= 20 por 1 minuto, 3 períodos consecutivos

Um número elevado de índices está migrando simultaneamente do armazenamento quente para o UltraWarm. Avalie a possibilidade de escalar seu cluster.

HotToWarmMigrationSuccessLatency é >= 1 dia, 1 período consecutivo

Configure este alarme para que você seja notificado se HotToWarmMigrationSuccessCount x latência for maior que 24 horas, caso você esteja tentando alterar índices diários.

O máximo de WarmJVMMemoryPressure é >= 95% por um minuto, três vezes consecutivas O cluster poderá apresentar erros de memória insuficiente se o uso aumentar. Considere a escalabilidade vertical. O OpenSearch Service usa metade da RAM de uma instância para o heap do Java, com um tamanho de heap de 32 GiB. Você pode dimensionar instâncias verticalmente até 64 GiB de RAM, sendo que nesse ponto você poderá dimensionar horizontalmente adicionando instâncias.
O máximo de WarmOldGenJVMMemoryPressure é >= 80% por um minuto, três vezes consecutivas
WarmToColdMigrationQueueSize é >= 20 por 1 minuto, 3 períodos consecutivos

Um número elevado de índices está migrando simultaneamente do UltraWarm para o armazenamento frio. Avalie a possibilidade de escalar seu cluster.

HotToWarmMigrationFailureCount é >= 1 por 1 minuto, 1 período consecutivo

As migrações podem falhar durante os snapshots, as realocações de fragmentos ou as uniões de força. As falhas durante os snapshots ou as realocações de fragmentos geralmente ocorrem devido a falhas de nós ou a problemas de conectividade do S3. A falta de espaço em disco geralmente é a causa subjacente das falhas de união de força.

WarmToColdMigrationFailureCount é >= 1 por 1 minuto, 1 período consecutivo As migrações geralmente falham quando as tentativas de migrar metadados de índice para o armazenamento frio falham. Também podem ocorrer falhas quando o estado do cluster de índice quente estiver sendo removido.
WarmToColdMigrationLatency é >= 1 dia, 1 período consecutivo

Configure este alarme para que você seja notificado se WarmToColdMigrationSuccessCount x latência for maior que 24 horas, caso você esteja tentando alterar índices diários.

AlertingDegraded é >= 1 por 1 minuto, 1 período consecutivo

O índice de alerta é vermelho ou um ou mais nós não estão na programação.

ADPluginUnhealthy é >= 1 por 1 minuto, 1 período consecutivo

O plug-in de detecção de anomalias não está funcionando corretamente, seja por causa de altas taxas de falhas, seja por um dos índices que está sendo usado estar vermelho.

AsynchronousSearchFailureRate é >= 1 por 1 minuto, 1 período consecutivo

Pelo menos uma pesquisa assíncrona falhou no último minuto, o que provavelmente significa que o nó coordenador falhou. O ciclo de vida de uma solicitação de pesquisa assíncrona é gerenciado exclusivamente no nó do coordenador, portanto, se o coordenador ficar inativo, a solicitação falhará.

AsynchronousSearchStoreHealth é >= 1 por 1 minuto, 1 período consecutivo

A integridade do armazenamento de respostas de pesquisa assíncrona no índice persistido é vermelha. Você pode estar armazenando grandes respostas assíncronas, que podem desestabilizar um cluster. Tente limitar suas respostas de pesquisa assíncronas a 10 MB ou menos.

SQLUnhealthy é >= 1 por 1 minuto, 3 períodos consecutivos

O plugin SQL está retornando códigos de resposta 5xx ou passando DSL de consulta inválida para o OpenSearch. Solucione o problema das solicitações que os clientes estão fazendo ao plugin.

LTRStatus.red é >= 1 por 1 minuto, 1 período consecutivo

Pelo menos um dos índices necessários para executar o plugin Learning to Rank tem fragmentos primários ausentes e não está funcional.