CloudWatch Alarmes recomendados para o Amazon Service OpenSearch

CloudWatch os alarmes realizam uma ação quando uma CloudWatch métrica excede um valor especificado por um determinado período de tempo. Por exemplo, talvez você queira AWS enviar um e-mail se o status de integridade do seu cluster red for superior a um minuto. Esta seção inclui alguns alarmes recomendados para o Amazon OpenSearch Service e como responder a eles.

Você pode implantar automaticamente esses alarmes usando AWS CloudFormation. Para ver uma pilha de amostra, consulte o GitHubrepositório relacionado.

nota

Se você implantar a CloudFormation pilha, os KMSKeyInaccessible alarmes KMSKeyError e existirão em um Insufficient Data estado porque essas métricas só aparecerão se um domínio encontrar um problema com sua chave de criptografia.

Para obter mais informações sobre a configuração de alarmes, consulte Criação de CloudWatchalarmes da Amazon no Guia do usuário da Amazon CloudWatch .

Alarme	Problema
Máximo de `ClusterStatus.red` é >= 1 por 1 minuto, 1 período consecutivo	Pelo menos um fragmento principal e suas réplicas não estão alocados para um nó. Consulte Status de cluster vermelho.
O máximo de `ClusterStatus.yellow` é >= um por um minuto, cinco vezes consecutivas	Pelo menos um fragmento de réplica não está alocado para um nó. Consulte Status de cluster amarelo.
Mínimo de `FreeStorageSpace` é <= 20480 por 1 minuto, 1 período consecutivo	Um nó no seu cluster tem 20 GiB de espaço de armazenamento livre. Consulte Falta de espaço de armazenamento disponível. Esse valor é em MiB; portanto, em vez de 20.480, recomendamos defini-lo como 25% do espaço de armazenamento para cada nó.
`ClusterIndexWritesBlocked` é >= 1 por 5 minutos, 1 período consecutivo	O cluster está bloqueando solicitações de gravação. Consulte ClusterBlockException.
Mínimo de `Nodes` é < x por 1 dia, 1 período consecutivo	x é o número de nós em seu cluster. Esse alarme indica que pelo menos um nó no cluster permaneceu inacessível por um dia. Consulte Nós de cluster com falha.
Máximo de `AutomatedSnapshotFailure` é >= 1 por 1 minuto, 1 período consecutivo	Ocorreu falha em um snapshot automatizado. Essa falha normalmente é o resultado de um status de integridade vermelho do cluster. Consulte Status de cluster vermelho. Para obter um resumo de todos os snapshots automatizados e algumas informações sobre falhas, experimente uma das seguintes solicitações: `GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all`
O máximo de `CPUUtilization` ou `WarmCPUUtilization` é >= 80% por 15 minutos, 3 períodos consecutivos	Às vezes, pode ocorrer 100% de utilização da CPU, mas o alto uso sustentado é um problema. Considere o uso de tipos de instância maiores ou a adição de instâncias.
O máximo de `JVMMemoryPressure` é >= 95% por um minuto, três vezes consecutivas	O cluster poderá apresentar erros de memória insuficiente se o uso aumentar. Considere escalar verticalmente. OpenSearch O serviço usa metade da RAM de uma instância para o heap Java, até um tamanho de heap de 32 GiB. Você pode dimensionar instâncias verticalmente até 64 GiB de RAM, sendo que nesse ponto você poderá dimensionar horizontalmente adicionando instâncias.
O máximo de `OldGenJVMMemoryPressure` é >= 80% por um minuto, três vezes consecutivas
O máximo de `MasterCPUUtilization` é >= 50% por 15 minutos, 3 períodos consecutivos	Considere o uso de tipos de instância maiores para os nós principais dedicados. Devido à sua função na estabilidade do cluster e implantações azuis/verdes, os nós principais dedicados devem ter um uso de CPU menor do que os nós de dados.
O máximo de `MasterJVMMemoryPressure` é >= 95% por um minuto, três vezes consecutivas
O máximo de `MasterOldGenJVMMemoryPressure` é >= 80% por um minuto, três vezes consecutivas
`KMSKeyError` é >= 1 por 1 minuto, 1 período consecutivo	A chave de AWS KMS criptografia usada para criptografar dados em repouso no seu domínio está desativada. Reative-a para restaurar as operações normais. Para obter mais informações, consulte Criptografia de dados em repouso para o Amazon OpenSearch Service.
`KMSKeyInaccessible` é >= 1 por 1 minuto, 1 período consecutivo	A chave de AWS KMS criptografia usada para criptografar dados em repouso em seu domínio foi excluída ou revogou suas concessões ao OpenSearch Serviço. Você não pode recuperar os domínios que estejam nesse estado. Porém, se tiver um snapshot manual, você poderá usá-lo para migrar para um novo domínio. Para saber mais, consulte Criptografia de dados em repouso para o Amazon OpenSearch Service.
`shards.active` é >= 30.000 por 1 minuto, 1 período consecutivo	O número total de fragmentos ativos primários e de réplica é maior que 30.000. Talvez você esteja alternando seus índices com muita frequência. Considere usar o ISM para remover índices quando atingirem um período de validade específico.
Alarmes `5xx` >= 10% de `OpenSearchRequests`	Um ou mais nós de dados podem estar sobrecarregados ou as solicitações não são concluídas dentro do período de tempo limite ocioso. Considere alternar para tipos de instância maiores ou adicionar mais nós ao cluster. Confirme se você está seguindo as práticas recomendadas para arquitetura de fragmentos e clusters.
Máximo de `MasterReachableFromNode` é < 1 por 5 minutos, 1 período consecutivo	Esse alarme indica que o nó principal foi interrompido ou está fora do alcance. Essas falhas geralmente são o resultado de um problema de conectividade de rede ou de AWS dependência.
A média de `ThreadpoolWriteQueue` é >= 100 por 1 minuto, 1 período consecutivo	O cluster está passando por alta simultaneidade de indexação. Revise e controle as solicitações de indexação ou aumente os recursos do cluster.
A média de `ThreadpoolSearchQueue` é >= 500 por 1 minuto, 1 período consecutivo	O cluster está passando por alta simultaneidade de pesquisa. Avalie a possibilidade de escalar seu cluster. Você também pode aumentar o tamanho da fila de pesquisa, mas aumentá-la excessivamente pode causar erros de falta de memória.
O máximo de `ThreadpoolSearchQueue` é >= 5.000 por 1 minuto, 1 período consecutivo
O aumento na SOMA de `ThreadpoolSearchRejected` é >=1{ math expression DIFF ( )} por um minuto, um período consecutivo	Esses alarmes notificam você sobre problemas de domínio que podem afetar a performance e a estabilidade.
O aumento na SOMA de `ThreadpoolWriteRejected` é >=1{ math expression DIFF ( )} por um minuto, um período consecutivo

nota

Se você só desejar visualizar métricas, consulte Monitorando métricas de OpenSearch cluster com a Amazon CloudWatch.

Outros alarmes que você pode considerar

Considere configurar os seguintes alarmes, dependendo dos recursos do OpenSearch Serviço que você usa regularmente.

Alarme	Problema
`WarmFreeStorageSpace` é >= 10%	Você atingiu 10% do seu total de armazenamento quente gratuito. `WarmFreeStorageSpace`mede a soma do seu espaço de armazenamento quente livre em MiB. UltraWarm usa o Amazon S3 em vez de discos conectados.
`HotToWarmMigrationQueueSize` é >= 20 por 1 minuto, 3 períodos consecutivos	Um grande número de índices está migrando simultaneamente do sistema ativo para o UltraWarm armazenamento. Avalie a possibilidade de escalar seu cluster.
`HotToWarmMigrationSuccessLatency` é >= 1 dia, 1 período consecutivo	Configure este alarme para que você seja notificado se `HotToWarmMigrationSuccessCount` x latência for maior que 24 horas, caso você esteja tentando alterar índices diários.
O máximo de `WarmJVMMemoryPressure` é >= 95% por um minuto, três vezes consecutivas	O cluster poderá apresentar erros de memória insuficiente se o uso aumentar. Considere a escalabilidade vertical. OpenSearch O serviço usa metade da RAM de uma instância para o heap Java, até um tamanho de heap de 32 GiB. Você pode dimensionar instâncias verticalmente até 64 GiB de RAM, sendo que nesse ponto você poderá dimensionar horizontalmente adicionando instâncias.
O máximo de `WarmOldGenJVMMemoryPressure` é >= 80% por um minuto, três vezes consecutivas
`WarmToColdMigrationQueueSize` é >= 20 por 1 minuto, 3 períodos consecutivos	Um grande número de índices está migrando simultaneamente UltraWarm para o armazenamento refrigerado. Avalie a possibilidade de escalar seu cluster.
`HotToWarmMigrationFailureCount` é >= 1 por 1 minuto, 1 período consecutivo	As migrações podem falhar durante os snapshots, as realocações de fragmentos ou as uniões de força. As falhas durante os snapshots ou as realocações de fragmentos geralmente ocorrem devido a falhas de nós ou a problemas de conectividade do S3. A falta de espaço em disco geralmente é a causa subjacente das falhas de união de força.
`WarmToColdMigrationFailureCount` é >= 1 por 1 minuto, 1 período consecutivo	As migrações geralmente falham quando as tentativas de migrar metadados de índice para o armazenamento frio falham. Também podem ocorrer falhas quando o estado do cluster de índice quente estiver sendo removido.
`WarmToColdMigrationLatency` é >= 1 dia, 1 período consecutivo	Configure este alarme para que você seja notificado se `WarmToColdMigrationSuccessCount` x latência for maior que 24 horas, caso você esteja tentando alterar índices diários.
`AlertingDegraded` é >= 1 por 1 minuto, 1 período consecutivo	O índice de alerta é vermelho ou um ou mais nós não estão na programação.
`ADPluginUnhealthy` é >= 1 por 1 minuto, 1 período consecutivo	O plug-in de detecção de anomalias não está funcionando corretamente, seja por causa de altas taxas de falhas, seja por um dos índices que está sendo usado estar vermelho.
`AsynchronousSearchFailureRate` é >= 1 por 1 minuto, 1 período consecutivo	Pelo menos uma pesquisa assíncrona falhou no último minuto, o que provavelmente significa que o nó coordenador falhou. O ciclo de vida de uma solicitação de pesquisa assíncrona é gerenciado exclusivamente no nó do coordenador, portanto, se o coordenador ficar inativo, a solicitação falhará.
`AsynchronousSearchStoreHealth` é >= 1 por 1 minuto, 1 período consecutivo	A integridade do armazenamento de respostas de pesquisa assíncrona no índice persistido é vermelha. Você pode estar armazenando grandes respostas assíncronas, que podem desestabilizar um cluster. Tente limitar suas respostas de pesquisa assíncronas a 10 MB ou menos.
`SQLUnhealthy` é >= 1 por 1 minuto, 3 períodos consecutivos	O plug-in SQL está retornando 5 códigos de resposta xx ou passando uma consulta DSL inválida para. OpenSearch Solucione o problema das solicitações que os clientes estão fazendo ao plug-in.
`LTRStatus.red` é >= 1 por 1 minuto, 1 período consecutivo	Pelo menos um dos índices necessários para executar o plug-in Learning to Rank tem fragmentos primários ausentes e não está funcional.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Nós principais dedicados

Referência geral