CloudWatch Alarmes recomendados para o Amazon Service OpenSearch - OpenSearch Serviço Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

CloudWatch Alarmes recomendados para o Amazon Service OpenSearch

CloudWatch os alarmes realizam uma ação quando uma CloudWatch métrica excede um valor especificado por um determinado período de tempo. Por exemplo, talvez você queira AWS enviar um e-mail se o status de integridade do seu cluster red for superior a um minuto. Esta seção inclui alguns alarmes recomendados para o Amazon OpenSearch Service e como responder a eles.

Você pode implantar automaticamente esses alarmes usando AWS CloudFormation. Para ver uma pilha de amostra, consulte o GitHubrepositório relacionado.

nota

Se você implantar a CloudFormation pilha, os KMSKeyInaccessible alarmes KMSKeyError e existirão em um Insufficient Data estado porque essas métricas só aparecerão se um domínio encontrar um problema com sua chave de criptografia.

Para obter mais informações sobre a configuração de alarmes, consulte Criação de CloudWatchalarmes da Amazon no Guia do usuário da Amazon CloudWatch .

Alarme Problema
Máximo de ClusterStatus.red é >= 1 por 1 minuto, 1 período consecutivo Pelo menos um fragmento principal e suas réplicas não estão alocados para um nó. Consulte Status de cluster vermelho.
O máximo de ClusterStatus.yellow é >= um por um minuto, cinco vezes consecutivas Pelo menos um fragmento de réplica não está alocado para um nó. Consulte Status de cluster amarelo.
Mínimo de FreeStorageSpace é <= 20480 por 1 minuto, 1 período consecutivo Um nó no seu cluster tem 20 GiB de espaço de armazenamento livre. Consulte Falta de espaço de armazenamento disponível. Esse valor é em MiB; portanto, em vez de 20.480, recomendamos defini-lo como 25% do espaço de armazenamento para cada nó.
ClusterIndexWritesBlocked é >= 1 por 5 minutos, 1 período consecutivo O cluster está bloqueando solicitações de gravação. Consulte ClusterBlockException.
Mínimo de Nodes é < x por 1 dia, 1 período consecutivo x é o número de nós em seu cluster. Esse alarme indica que pelo menos um nó no cluster permaneceu inacessível por um dia. Consulte Nós de cluster com falha.
Máximo de AutomatedSnapshotFailure é >= 1 por 1 minuto, 1 período consecutivo Ocorreu falha em um snapshot automatizado. Essa falha normalmente é o resultado de um status de integridade vermelho do cluster. Consulte Status de cluster vermelho.

Para obter um resumo de todos os snapshots automatizados e algumas informações sobre falhas, experimenteo uma das seguintes solicitações:

GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all
O máximo de CPUUtilization ou WarmCPUUtilization é >= 80% por 15 minutos, 3 períodos consecutivos Às vezes, pode ocorrer 100% de utilização da CPU, mas o alto uso sustentado é um problema. Considere o uso de tipos de instância maiores ou a adição de instâncias.
O máximo de JVMMemoryPressure é >= 95% por um minuto, três vezes consecutivas O cluster poderá apresentar erros de memória insuficiente se o uso aumentar. Considere escalar verticalmente. OpenSearch O serviço usa metade da RAM de uma instância para o heap Java, até um tamanho de heap de 32 GiB. Você pode dimensionar instâncias verticalmente até 64 GiB de RAM, sendo que nesse ponto você poderá dimensionar horizontalmente adicionando instâncias.
O máximo de OldGenJVMMemoryPressure é >= 80% por um minuto, três vezes consecutivas
O máximo de MasterCPUUtilization é >= 50% por 15 minutos, 3 períodos consecutivos Considere o uso de tipos de instância maiores para os nós principais dedicados. Devido à sua função na estabilidade do cluster e implantações azuis/verdes, os nós principais dedicados devem ter um uso de CPU menor do que os nós de dados.
O máximo de MasterJVMMemoryPressure é >= 95% por um minuto, três vezes consecutivas
O máximo de MasterOldGenJVMMemoryPressure é >= 80% por um minuto, três vezes consecutivas
KMSKeyError é >= 1 por 1 minuto, 1 período consecutivo A chave de AWS KMS criptografia usada para criptografar dados em repouso no seu domínio está desativada. Reative-a para restaurar as operações normais. Para ter mais informações, consulte Criptografia de dados em repouso para o Amazon OpenSearch Service.
KMSKeyInaccessible é >= 1 por 1 minuto, 1 período consecutivo A chave de AWS KMS criptografia usada para criptografar dados em repouso em seu domínio foi excluída ou revogou suas concessões ao OpenSearch Serviço. Você não pode recuperar os domínios que estejam nesse estado. Porém, se tiver um snapshot manual, você poderá usá-lo para migrar para um novo domínio. Para saber mais, consulte Criptografia de dados em repouso para o Amazon OpenSearch Service.
shards.active é >= 30.000 por 1 minuto, 1 período consecutivo

O número total de fragmentos ativos primários e de réplica é maior que 30.000. Talvez você esteja alternando seus índices com muita frequência. Considere usar o ISM para remover índices quando atingirem um período de validade específico.

Alarmes 5xx >= 10% de OpenSearchRequests Um ou mais nós de dados podem estar sobrecarregados ou as solicitações não são concluídas dentro do período de tempo limite ocioso. Considere alternar para tipos de instância maiores ou adicionar mais nós ao cluster. Confirme se você está seguindo as práticas recomendadas para arquitetura de fragmentos e clusters.
MasterReachableFromNodemáximo é < 1 por 5 minutos, 1 vez consecutiva

Esse alarme indica que o nó principal foi interrompido ou está fora do alcance. Essas falhas geralmente são o resultado de um problema de conectividade de rede ou de AWS dependência.

A média de ThreadpoolWriteQueue é >= 100 por 1 minuto, 1 período consecutivo O cluster está passando por alta simultaneidade de indexação. Revise e controle as solicitações de indexação ou aumente os recursos do cluster.
A média de ThreadpoolSearchQueue é >= 500 por 1 minuto, 1 período consecutivo O cluster está passando por alta simultaneidade de pesquisa. Avalie a possibilidade de escalar seu cluster. Você também pode aumentar o tamanho da fila de pesquisa, mas aumentá-la excessivamente pode causar erros de falta de memória.
O máximo de ThreadpoolSearchQueue é >= 5.000 por 1 minuto, 1 período consecutivo
O aumento na SOMA de ThreadpoolSearchRejected é >=1{ math expression DIFF ( )} por um minuto, um período consecutivo Esses alarmes notificam você sobre problemas de domínio que podem afetar a performance e a estabilidade.
O aumento na SOMA de ThreadpoolWriteRejected é >=1{ math expression DIFF ( )} por um minuto, um período consecutivo
nota

Se você só desejar visualizar métricas, consulte Monitorar métricas de cluster do OpenSearch com o Amazon CloudWatch.

Outros alarmes que você pode considerar

Considere configurar os seguintes alarmes, dependendo dos recursos do OpenSearch Serviço que você usa regularmente.

Alarme Problema
O mínimo de WarmFreeStorageSpace é <= 10.240 por 1 minuto, 1 período consecutivo Um UltraWarm nó em seu cluster tem menos de 10 GiB de espaço de armazenamento livre. Consulte Falta de espaço de armazenamento disponível. Esse valor está em MiB, portanto, em vez de 10240, recomendamos configurá-lo para 10% do espaço de armazenamento de cada nó. UltraWarm
HotToWarmMigrationQueueSize é >= 20 por 1 minuto, 3 períodos consecutivos

Um grande número de índices está migrando simultaneamente do sistema ativo para o UltraWarm armazenamento. Avalie a possibilidade de escalar seu cluster.

HotToWarmMigrationSuccessLatency é >= 1 dia, 1 período consecutivo

Configure este alarme para que você seja notificado se HotToWarmMigrationSuccessCount x latência for maior que 24 horas, caso você esteja tentando alterar índices diários.

O máximo de WarmJVMMemoryPressure é >= 95% por um minuto, três vezes consecutivas O cluster poderá apresentar erros de memória insuficiente se o uso aumentar. Considere escalar verticalmente. OpenSearch O serviço usa metade da RAM de uma instância para o heap Java, até um tamanho de heap de 32 GiB. Você pode dimensionar instâncias verticalmente até 64 GiB de RAM, sendo que nesse ponto você poderá dimensionar horizontalmente adicionando instâncias.
O máximo de WarmOldGenJVMMemoryPressure é >= 80% por um minuto, três vezes consecutivas
WarmToColdMigrationQueueSize é >= 20 por 1 minuto, 3 períodos consecutivos

Um grande número de índices está migrando simultaneamente UltraWarm para o armazenamento refrigerado. Avalie a possibilidade de escalar seu cluster.

HotToWarmMigrationFailureCount é >= 1 por 1 minuto, 1 período consecutivo

As migrações podem falhar durante os snapshots, as realocações de fragmentos ou as uniões de força. As falhas durante os snapshots ou as realocações de fragmentos geralmente ocorrem devido a falhas de nós ou a problemas de conectividade do S3. A falta de espaço em disco geralmente é a causa subjacente das falhas de união de força.

WarmToColdMigrationFailureCount é >= 1 por 1 minuto, 1 período consecutivo As migrações geralmente falham quando as tentativas de migrar metadados de índice para o armazenamento frio falham. Também podem ocorrer falhas quando o estado do cluster de índice quente estiver sendo removido.
WarmToColdMigrationLatency é >= 1 dia, 1 período consecutivo

Configure este alarme para que você seja notificado se WarmToColdMigrationSuccessCount x latência for maior que 24 horas, caso você esteja tentando alterar índices diários.

AlertingDegraded é >= 1 por 1 minuto, 1 período consecutivo

O índice de alerta é vermelho ou um ou mais nós não estão na programação.

ADPluginUnhealthy é >= 1 por 1 minuto, 1 período consecutivo

O plug-in de detecção de anomalias não está funcionando corretamente, seja por causa de altas taxas de falhas, seja por um dos índices que está sendo usado estar vermelho.

AsynchronousSearchFailureRate é >= 1 por 1 minuto, 1 período consecutivo

Pelo menos uma pesquisa assíncrona falhou no último minuto, o que provavelmente significa que o nó coordenador falhou. O ciclo de vida de uma solicitação de pesquisa assíncrona é gerenciado exclusivamente no nó do coordenador, portanto, se o coordenador ficar inativo, a solicitação falhará.

AsynchronousSearchStoreHealth é >= 1 por 1 minuto, 1 período consecutivo

A integridade do armazenamento de respostas de pesquisa assíncrona no índice persistido é vermelha. Você pode estar armazenando grandes respostas assíncronas, que podem desestabilizar um cluster. Tente limitar suas respostas de pesquisa assíncronas a 10 MB ou menos.

SQLUnhealthy é >= 1 por 1 minuto, 3 períodos consecutivos

O plug-in SQL está retornando 5 códigos de resposta xx ou passando uma consulta DSL inválida para. OpenSearch Solucione o problema das solicitações que os clientes estão fazendo ao plug-in.

LTRStatus.red é >= 1 por 1 minuto, 1 período consecutivo

Pelo menos um dos índices necessários para executar o plug-in Learning to Rank tem fragmentos primários ausentes e não está funcional.