Monitorar métricas de cluster do OpenSearch com o Amazon CloudWatch - OpenSearch Serviço Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Monitorar métricas de cluster do OpenSearch com o Amazon CloudWatch

O Amazon OpenSearch Service publica dados de seus domínios no Amazon CloudWatch. O CloudWatch permite recuperar estatísticas sobre esses pontos de dados como um conjunto ordenado de dados de séries temporais, conhecidos como métricas. O OpenSearch Service envia a maioria das métricas ao CloudWatch em intervalos de 60 segundos. Se você usar volumes magnéticos do EBS ou de uso geral, as métricas do volume do EBS serão atualizadas somente a cada cinco minutos. Para obter mais informações sobre o Amazon CloudWatch, consulte o Manual do usuário do Amazon CloudWatch.

O console do OpenSearch Service exibe uma série de gráficos com base nos dados brutos do CloudWatch. Dependendo das suas necessidades, talvez você prefira visualizar dados do cluster no CloudWatch em vez de gráficos no console. O serviço mantém as métricas arquivadas por duas semanas e depois as descarta. As métricas são fornecidas sem custo adicional, mas o CloudWatch ainda cobra pela criação de painéis e alarmes. Para obter mais informações, consulte Preço do Amazon CloudWatch.

O OpenSearch Service publica as seguintes métricas no CloudWatch:

Visualização de métricas com o CloudWatch

As métricas do CloudWatch são agrupadas primeiro pelo namespace do serviço e, em seguida, por várias combinações de dimensão dentro de cada namespace.

Para visualizar indicadores usando o console do CloudWatch
  1. Abra o console do CloudWatch em https://console.aws.amazon.com/cloudwatch/.

  2. No painel de navegação à esquerda, localize Métricas e escolha Todas as métricas. Selecione o namespace ES/OpenSearchService.

  3. Escolha uma dimensão para visualizar as métricas correspondentes. As métricas para nós individuais estão na dimensão ClientId, DomainName, NodeId. As métricas de cluster estão na dimensão Per-Domain, Per-Client Metrics. Algumas métricas de nó são agregadas no nível do cluster e, portanto, incluídas em ambas as dimensões. As métricas de fragmentos estão na dimensão ClientId, DomainName, NodeId, ShardRole.

Visualizar uma lista de métricas usando o AWS CLI

Execute o seguinte comando:

aws cloudwatch list-metrics --namespace "AWS/ES"

Interpretação de gráficos de integridade no OpenSearch Service

Para exibir métricas no OpenSearch Service, use as guias Integridade do cluster e Integridade da instância. A guia Integridade da instância usa gráficos de caixa para fornecer uma visão imediata da integridade de cada nó do OpenSearch.

  • Cada caixa colorida mostra a faixa de valores do nó ao longo do período de tempo especificado.

  • As caixas azuis representam valores que são consistentes com outros nós. As caixas vermelhas representam exceções.

  • A linha branca dentro de cada caixa de seleção mostra o valor atual do nó.

  • As "caixas estreitas" em cada lado de cada caixa mostram os valores mínimo e máximo de todos os nós ao longo do período de tempo.

Se você fizer alterações de configuração para seu domínio, a lista de instâncias individuais nas guias Integridade do cluster e Integridade da instância geralmente duplicarão de tamanho por um breve período antes de retornar para o número correto. Para obter uma explicação sobre esse comportamento, consulte Fazendo alterações de configuração no Amazon OpenSearch Service.

Métricas de cluster

O Amazon OpenSearch Service fornece as métricas a seguir para clusters.

Métrica Descrição
ClusterStatus.green

Um valor 1 indica que todos os fragmentos de índice estão alocados a nós no cluster.

Estatística relevante: máximo

ClusterStatus.yellow Um valor 1 indica que os fragmentos principais de todos os índices estão alocados a nós no cluster, mas os fragmentos de réplica de pelo menos um índice não estão. Para obter mais informações, consulte Status de cluster amarelo.

Estatística relevante: máximo

ClusterStatus.red

Um valor 1 indica que os fragmentos principais e de réplica de pelo menos um índice não estão alocados a nós no cluster. Para obter mais informações, consulte Status de cluster vermelho.

Estatística relevante: máximo

Shards.active

O número total de fragmentos ativos primários e de réplica.

Estatística relevante: máximo, soma

Shards.unassigned

O número de fragmentos que não estão alocados a nós no cluster.

Estatística relevante: máximo, soma

Shards.delayedUnassigned

O número de fragmentos cuja alocação de nó foi atrasada pelas configurações de tempo limite.

Estatística relevante: máximo, soma

Shards.activePrimary

O número de fragmentos primários ativos.

Estatística relevante: máximo, soma

Shards.initializing

O número de fragmentos que estão em inicialização.

Estatísticas relevantes: soma

Shards.relocating

O número de fragmentos que estão em relocação.

Estatísticas relevantes: soma

Nodes

O número de nós no cluster do OpenSearch Service, inclusive nós principais dedicados e nós UltraWarm. Para obter mais informações, consulte Fazendo alterações de configuração no Amazon OpenSearch Service.

Estatística relevante: máximo

SearchableDocuments

O número total de documentos pesquisáveis em todos os nós de dados no cluster.

Estatísticas relevantes: mínimo, máximo, média

DeletedDocuments

O número total de documentos marcados para exclusão em todos os nós de dados no cluster. Esses documentos não aparecem mais nos resultados de pesquisa, mas o OpenSearch elimina somente os documentos excluídos de disco durante fusões de segmento. Essa métrica aumenta após solicitações e diminuições de exclusão após fusões de segmento.

Estatísticas relevantes: mínimo, máximo, média

CPUUtilization

A porcentagem de utilização da CPU para nós de dados no cluster. Maximum (Máximo) mostra o nó com a maior utilização da CPU. Average (Médio) representa todos os nós no cluster. Esta métrica também está disponível para nós individuais.

Estatísticas relevantes: máximo, média

FreeStorageSpace

O espaço livre para nós de dados no cluster. Sum mostra o espaço livre total para o cluster, mas é necessário deixar o período em um minuto para obter um valor exato. Minimum e Maximum mostram os nós com o menor e o maior espaço livre, respectivamente. Esta métrica também está disponível para nós individuais. O serviço OpenSearch emite um ClusterBlockException quando essa métrica atinge0. Para recuperar, você deve excluir índices, adicionar instâncias maiores ou adicionar armazenamento EBS às instâncias existentes. Para saber mais, consulte Falta de espaço de armazenamento disponível.

O console do OpenSearch Service exibe esse valor em GiB. O console do Amazon CloudWatch exibe-o em MiB.

nota

FreeStorageSpace será sempre menor do que os valores fornecidos pelas APIs _cluster/stats e _cat/allocation do OpenSearch. O OpenSearch Service reserva uma porcentagem de espaço de armazenamento em cada instância para operações internas. Para obter mais informações, consulte Cálculo de requisitos de armazenamento.

Estatísticas relevantes: mínima, máxima, média, soma

ClusterUsedSpace

O total de espaço usado para o cluster. Você deve deixar o período em um minuto para receber um valor preciso.

O console do OpenSearch Service exibe esse valor em GiB. O console do Amazon CloudWatch exibe-o em MiB.

Estatísticas relevantes: mínimo, máximo

ClusterIndexWritesBlocked

Indica se o cluster está aceitando ou bloqueando solicitações de gravação recebidas. Um valor de 0 significa que o cluster está aceitando solicitações. Um valor de 1 significa que ele está bloqueando solicitações.

Alguns fatores comuns são: FreeStorageSpace é muito baixo ou JVMMemoryPressure é muito alto. Para aliviar esse problema, considere adicionar mais espaço em disco ou escalonar o cluster.

Estatística relevante: máximo

JVMMemoryPressure

A porcentagem máxima do heap Java usada para todos os nós de dados no cluster. O OpenSearch Service usa metade da RAM de uma instância para o heap do Java, com um tamanho de heap de 32 GiB. Você pode dimensionar instâncias verticalmente até 64 GiB de RAM, sendo que nesse ponto você poderá dimensionar horizontalmente adicionando instâncias. Consulte CloudWatch Alarmes recomendados para o Amazon Service OpenSearch .

Estatística relevante: máximo

nota

A lógica dessa métrica foi alterada no software de serviço R20220323. Para obter mais informações, consulte as notas de lançamento.

OldGenJVMMemoryPressure

A porcentagem máxima do heap do Java usada para a "geração antiga" em todos os nós de dados no cluster. Essa métrica também está disponível a nível de nós.

Estatística relevante: máximo

AutomatedSnapshotFailure

O número de snapshots automatizados com falha para o cluster. Um valor de 1 indica que nenhum snapshot automatizado foi feito para o domínio nas últimas 36 horas.

Estatísticas relevantes: mínimo, máximo

CPUCreditBalance

Os créditos de CPU ainda disponíveis para nós de dados no cluster. Um crédito de CPU oferece a performance de um núcleo de CPU completo por um minuto. Para obter mais informações, consulte Créditos de CPU no Guia do desenvolvedor do Amazon EC2. Essa métrica está disponível somente para os tipos de instância T2

Estatísticas relevantes: mínimo

OpenSearchDashboardsHealthyNodes

Uma verificação de integridade para o OpenSearch Dashboards. Se mínimo, máximo e média forem todos iguais a 1, o Dashboards está se comportando normalmente. Se você tiver 10 nós com máximo de 1, mínimo de 0 e média de 0,7, isso significa que 7 nós (70%) são íntegros e 3 nós (30%) não são íntegros.

Estatísticas relevantes: mínimo, máximo, média

OpensearchDashboardsReportingFailedRequestSysErrCount

O número de solicitações para gerar relatórios do OpenSearch Dashboards que falharam devido a problemas de servidor ou limitações de recursos.

Estatísticas relevantes: soma

OpensearchDashboardsReportingFailedRequestUserErrCount

O número de solicitações para gerar relatórios do OpenSearch Dashboards que falharam devido a problemas de cliente.

Estatísticas relevantes: soma

OpensearchDashboardsReportingRequestCount

O número total de solicitações para gerar relatórios do OpenSearch Dashboards.

Estatísticas relevantes: soma

OpensearchDashboardsReportingSuccessCount

O número de solicitações para gerar relatórios do OpenSearch Dashboards bem-sucedidas.

Estatísticas relevantes: soma

KMSKeyError

Um valor 1 indica que a chave do AWS KMS usada para criptografar dados em repouso foi desabilitada. Para restaurar o domínio de operações normais, reabilite a chave. O console exibe essa métrica somente para domínios que criptografam dados em repouso.

Estatísticas relevantes: mínimo, máximo

KMSKeyInaccessible

Um valor 1 indica que a chave do AWS KMS usada para criptografar dados em repouso foi excluída teve suas concessões para o OpenSearch Service revogadas. Você não pode recuperar os domínios que estejam nesse estado. Mas, se tiver um snapshot manual, você poderá usá-lo para migrar os dados do domínio para um novo domínio. O console exibe essa métrica somente para domínios que criptografam dados em repouso.

Estatísticas relevantes: mínimo, máximo

InvalidHostHeaderRequests

O número de solicitações HTTP feitas para o cluster do OpenSearch que incluíram um cabeçalho de host inválido (ou ausente). As solicitações válidas incluem o nome do host do domínio como o valor do cabeçalho do host. O OpenSearch Service rejeita as solicitações inválidas para domínios de acesso público que não têm uma política de acesso restritiva. Recomendamos aplicar uma política de acesso restritiva a todos os domínios.

Se você visualizar grandes valores para esta métrica, confirme se os clientes do OpenSearch incluem o nome de host do domínio (e não, por exemplo, seu endereço IP) em suas solicitações.

Estatísticas relevantes: soma

OpenSearchRequests(previously ElasticsearchRequests)

O número de solicitações feitas ao cluster do OpenSearch.

Estatísticas relevantes: soma

2xx, 3xx, 4xx, 5xx

O número de solicitações a um domínio que resultaram no determinado código de resposta HTTP (2xx, 3xx, 4xx, 5xx).

Estatísticas relevantes: soma

ThroughputThrottle

Indica se os discos estão sob controle de utilização ou não. O controle de utilização ocorre quando o throughput combinado de ReadThroughputMicroBursting e WriteThroughputMicroBursting é maior que o throughput máximo de MaxProvisionedThroughput. MaxProvisionedThroughput é o valor mais baixo do throughput da instância ou do throughput do volume provisionado. Um valor de 1 indica que os discos estão sob controle de utilização. Um valor de 0 indica comportamento normal.

Para obter informações sobre o throughput de instâncias, consulte Instâncias otimizadas para Amazon EBS. Para obter informações sobre o throughput de volume, consulte os tipos de volume do Amazon EBS.

Estatísticas relevantes: mínimo, máximo

Métricas de nó principal dedicado

O Amazon OpenSearch Service fornece as métricas a seguir para nós principais dedicados.

Métrica Descrição
MasterCPUUtilization

A porcentagem máxima de recursos da CPU usados pelos nós principais dedicados. Recomendamos aumentar o tamanho do tipo de instância quando essa métrica atingir 60%.

Estatística relevante: máximo

MasterFreeStorageSpace

Essa métrica não é relevante e pode ser ignorada. O serviço não usa nós principais como nós de dados.

MasterJVMMemoryPressure

A porcentagem máxima do heap Java usada para todos os nós principais dedicados no cluster. Recomendamos a mudança para um tipo de instância maior quando essa métrica atingir 85%.

Estatística relevante: máximo

nota

A lógica dessa métrica foi alterada no software de serviço R20220323. Para obter mais informações, consulte as notas de lançamento.

MasterOldGenJVMMemoryPressure

A porcentagem máxima do heap do Java usada para a “geração antiga” por nó principal.

Estatística relevante: máximo

MasterCPUCreditBalance

Os créditos de CPU ainda disponíveis para nós principais dedicados no cluster. Um crédito de CPU oferece a performance de um núcleo de CPU completo por um minuto. Para obter mais informações, consulte Créditos de CPU no Guia do desenvolvedor do Amazon EC2. Essa métrica está disponível somente para os tipos de instância T2

Estatísticas relevantes: mínimo

MasterReachableFromNode

Uma verificação de integridade exceções MasterNotDiscovered. Um valor de 1 indica comportamento normal. Um valor de 0 indica que /_cluster/health/ está falhando.

Falhas significam que o nó principal está inacessível a partir do nó de origem. Elas normalmente são o resultado de um problema de conectividade da rede ou de dependência da AWS.

Estatística relevante: máximo

MasterSysMemoryUtilization

O percentual de memória do nó principal que está em uso.

Estatística relevante: máximo

Métricas de volume do EBS

O Amazon OpenSearch Service fornece as métricas a seguir para volumes do EBS.

Métrica Descrição
ReadLatency

A latência, em segundos, para operações de leitura em volumes do EBS. Esta métrica também está disponível para nós individuais.

Estatísticas relevantes: mínimo, máximo, média

WriteLatency

A latência, em segundos, para operações de gravação em volumes do EBS. Esta métrica também está disponível para nós individuais.

Estatísticas relevantes: mínimo, máximo, média

ReadThroughput

O throughput, em bytes por segundo, para operações de leitura em volumes do EBS. Esta métrica também está disponível para nós individuais.

Estatísticas relevantes: mínimo, máximo, média

ReadThroughputMicroBursting

O throughput, em bytes por segundo, para operações de leitura em volumes do EBS quando a microintermitência é levada em consideração. Esta métrica também está disponível para nós individuais. A microintermitência ocorre quando um volume do EBS aumenta o IOPS ou a taxa de throughput por períodos de tempo significativamente mais curtos (menos de um minuto).

Estatísticas relevantes: mínimo, máximo, média

WriteThroughput

O throughput, em bytes por segundo, para operações de gravação em volumes do EBS. Esta métrica também está disponível para nós individuais.

Estatísticas relevantes: mínimo, máximo, média

WriteThroughputMicroBursting

O throughput, em bytes por segundo, para operações de gravação em volumes do EBS quando a microintermitência é levada em consideração. Esta métrica também está disponível para nós individuais. A microintermitência ocorre quando um volume do EBS aumenta o IOPS ou a taxa de throughput por períodos de tempo significativamente mais curtos (menos de um minuto).

Estatísticas relevantes: mínimo, máximo, média

DiskQueueDepth

O número de solicitações pendentes de entrada e saída (E/S) de um volume do EBS.

Estatísticas relevantes: mínimo, máximo, média

ReadIOPS

O número de operações de entrada e saída (E/S) por segundo para operações de leitura em volumes do EBS. Esta métrica também está disponível para nós individuais.

Estatísticas relevantes: mínimo, máximo, média

ReadIOPSMicroBursting

O número de operações de entrada e saída (E/S) por segundo para operações de leitura em volumes do EBS quando a microintermitência é levando em consideração. Esta métrica também está disponível para nós individuais. A microintermitência ocorre quando um volume do EBS aumenta o IOPS ou a taxa de throughput por períodos de tempo significativamente mais curtos (menos de um minuto).

Estatísticas relevantes: mínimo, máximo, média

WriteIOPS

O número de operações de entrada e saída (E/S) por segundo para operações de gravação em volumes do EBS. Esta métrica também está disponível para nós individuais.

Estatísticas relevantes: mínimo, máximo, média

WriteIOPSMicroBursting

O número de operações de entrada e saída (E/S) por segundo para operações de gravação em volumes do EBS quando a microintermitência é levando em consideração. Esta métrica também está disponível para nós individuais. A microintermitência ocorre quando um volume do EBS aumenta o IOPS ou a taxa de throughput por períodos de tempo significativamente mais curtos (menos de um minuto).

Estatísticas relevantes: mínimo, máximo, média

BurstBalance

A porcentagem de créditos de entrada e saída (E/S) restantes no bucket de intermitência para um volume do EBS. Um valor de 100 significa que o volume acumulou o número máximo de créditos. Se essa porcentagem cair abaixo de 70%, consulte O saldo de intermitência do EBS está baixo. O saldo intermitente permanece em 0 para domínios com tipos de volume gp3 e domínios com volume gp2 cujo tamanho de volume seja superior a 1000 GiB.

Estatísticas relevantes: mínimo, máximo, média

Métricas de instância

O Amazon OpenSearch Service fornece as métricas a seguir para cada instância em um domínio. O OpenSearch Service também agrega essas métricas de instâncias para fornecer um insight da integridade geral do cluster. Você pode verificar esse comportamento usando a estatística Contagem de amostras no console. Cada métrica na tabela a seguir tem estatísticas relevantes para o nó e o cluster.

Importante

Versões diferentes do Elasticsearch usam grupos de threads diferentes para processar chamadas para a API _index. As versões 1.5 e 2.3 do Elasticsearch usam o grupo de threads de índice. As versões 5.x, 6.0 e 6.2 do Elasticsearch usam o grupo de threads em massa. O OpenSearch e a versão 6.3 ou superior do Elasticsearch usam o grupo de threads de gravação. No momento, o console do OpenSearch Service não inclui um gráfico para o grupo de threads em massa.

Use GET _cluster/settings?include_defaults=true para verificar o grupo de threads e os tamanhos de fila para seu cluster.

Métrica Descrição
IndexingLatency

A diferença no tempo total, em milissegundos, obtida por todas as operações de indexação em um nó entre o minuto N e o minuto (N-1).

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máximo

IndexingRate

O número de operações de indexação por minuto. Uma única chamada para a API _bulk que adiciona dois documentos e atualiza duas contagens tem quatro operações, que podem ser espalhadas entre um ou mais nós. Se esse índice tem uma ou mais réplicas, outros nós no cluster também registram um total de quatro operações de índice. Exclusões de documento não são consideradas para essa métrica.

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máxima, soma

SearchLatency

A diferença no tempo total, em milissegundos, obtida por todas as pesquisas em um nó entre o minuto N e o minuto (N-1).

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máximo

SearchRate

O número total de solicitações de pesquisa por minuto para todos os fragmentos em um nó de dados. Uma única chamada para a API _search pode retornar resultados de muitos fragmentos diferentes. Se cinco desses fragmentos estiverem em um nó, o nó reportará 5 para essa métrica, mesmo se o cliente só fizer uma solicitação.

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máxima, soma

SegmentCount

O número de segmentos em um nó de dados. Quanto mais segmentos você tiver, mais tempo cada pesquisa demorará. O OpenSearch ocasionalmente mescla segmentos menores em um maior.

Estatísticas de nós relevantes: máximo, média

Estatísticas do cluster relevante: soma, máximo, média

SysMemoryUtilization

O percentual de memória da instância que está em uso. Valores altos para essa métrica são normais e geralmente não representam um problema com seu cluster. Para obter um melhor indicador de possíveis problemas de performance e estabilidade, consulte a métrica JVMMemoryPressure.

Estatísticas do nó relevante: mínimo, máximo, média

Estatísticas relevantes de cluster: mínimo, máximo, média, soma

JVMGCYoungCollectionCount

O número de vezes que a coleta de lixo “nova geração” foi executada. Um grande número de execuções crescente é uma parte normal das operações do cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

JVMGCYoungCollectionTime

A quantidade de tempo, em milissegundos, que o cluster gastou executando a coleta de lixo "nova geração".

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

JVMGCOldCollectionCount

O número de vezes que a coleta de lixo “geração antiga” foi executada. Em um cluster com recursos suficientes, esse número deve permanecer pequeno e com crescimento com pouca frequência.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

JVMGCOldCollectionTime

A quantidade de tempo, em milissegundos, que o cluster gastou executando a coleta de lixo “geração antiga”.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

OpenSearchDashboardsConcurrentConnections

O número de conexões simultâneas ativas para o OpenSearch Dashboards. Se esse número continuar a crescer, considere escalar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

OpenSearchDashboardsHealthyNode

Uma verificação de integridade para o nó individual do OpenSearch Dashboards. Um valor de 1 indica comportamento normal. Um valor de 0 indica que Dashboards está inacessível.

Estatísticas do nó relevante: mínimo

Estatísticas relevantes de cluster: mínimo, máximo, média, soma

OpenSearchDashboardsHeapTotal

A quantidade de memória de heap alocada para o OpenSearch Dashboards em MiB. Diferentes tipos de instância do EC2 podem afetar a alocação exata de memória.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

OpenSearchDashboardsHeapUsed

A quantidade absoluta de memória de heap usada pelo OpenSearch Dashboards em MiB.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

OpenSearchDashboardsHeapUtilization

A porcentagem máxima de memória de heap disponível usada pelo OpenSearch Dashboards. Se esse valor aumentar acima de 80%, considere escalar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas relevantes de cluster: mínimo, máximo, média, soma

OpenSearchDashboardsOS1MinuteLoad

A média de carga da CPU em um minuto para o OpenSearch Dashboards. A carga da CPU deve, idealmente, permanecer abaixo de 1,00. Embora picos temporários não sejam um problema, recomendamos aumentar o tamanho do tipo de instância se essa métrica estiver consistentemente acima de 1,00.

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máximo

OpenSearchDashboardsRequestTotal

A contagem total de solicitações HTTP feitas ao OpenSearch Dashboards. Se o sistema estiver lento ou você observar números elevados de solicitações de painéis, considere aumentar o tamanho do tipo de instância.

Estatísticas de nós relevantes: soma

Estatísticas do cluster relevante: soma

OpenSearchDashboardsResponseTimesMaxInMillis

O tempo máximo, em milissegundos, necessário para o OpenSearch Dashboards responder a uma solicitação. Se as solicitações demorarem consistentemente muito tempo para retornar resultados, considere aumentar o tamanho do tipo de instância.

Estatísticas do nó relevante: máximo

Estatísticas de cluster relevantes máximo, média

SearchTaskCancelled

O número de cancelamentos do nó coordenador.

Estatísticas de nós relevantes: soma

Estatísticas do cluster relevante: soma

SearchShardTaskCancelled

O número de cancelamentos de nós de dados.

Estatísticas de nós relevantes: soma

Estatísticas do cluster relevante: soma,

ThreadpoolForce_mergeQueue

O número de tarefas na fila no grupo de thread de união de força. Se o tamanho da fila é consistentemente alto, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

ThreadpoolForce_mergeRejected

O número de tarefas rejeitadas no grupo de thread de união de força. Se esse número continuar a crescer, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma

ThreadpoolForce_mergeThreads

O tamanho do grupo de threads de união de força.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

ThreadpoolIndexQueue

O número de tarefas na fila no grupo de thread de índice. Se o tamanho da fila é consistentemente alto, considere escalonar seu cluster. O tamanho máximo da fila de índice é de 200.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

ThreadpoolIndexRejected

O número de tarefas rejeitadas no grupo de thread de índice. Se esse número continuar a crescer, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma

ThreadpoolIndexThreads

O tamanho do grupo de threads de índice.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

ThreadpoolSearchQueue

O número de tarefas na fila no grupo de thread de pesquisa. Se o tamanho da fila é consistentemente alto, considere escalonar seu cluster. O tamanho da fila de pesquisa máximo é 1.000.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

ThreadpoolSearchRejected

O número de tarefas rejeitadas no grupo de thread de pesquisa. Se esse número continuar a crescer, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma

ThreadpoolSearchThreads

O tamanho do grupo de threads de pesquisa.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

Threadpoolsql-workerQueue

O número de tarefas na fila no grupo de threads de pesquisa SQL. Se o tamanho da fila é consistentemente alto, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

Threadpoolsql-workerRejected

O número de tarefas rejeitadas no grupo de threads de pesquisa SQL. Se esse número continuar a crescer, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma

Threadpoolsql-workerThreads

O tamanho do grupo de threads de pesquisa SQL.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

ThreadpoolBulkQueue

O número de tarefas na fila no grupo de thread em massa. Se o tamanho da fila é consistentemente alto, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

ThreadpoolBulkRejected

O número de tarefas rejeitadas no grupo de thread em massa. Se esse número continuar a crescer, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma

ThreadpoolBulkThreads

O tamanho do grupo de threads em massa.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

ThreadpoolWriteThreads

O tamanho do grupo de threads de gravação.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

ThreadpoolWriteQueue

O número de tarefas na fila no grupo de threads de gravação.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

ThreadpoolWriteRejected

O número de tarefas rejeitadas no grupo de threads de gravação.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

nota

Como o tamanho padrão da fila de gravação foi aumentado de 200 para 10.000 na versão 7.1, essa métrica não é mais o único indicador de rejeições do OpenSearch Service. Use as métricas CoordinatingWriteRejected, PrimaryWriteRejected e ReplicaWriteRejected para monitorar rejeições nas versões 7.1 e posteriores.

CoordinatingWriteRejected

O número total de rejeições que ocorreram no nó de coordenação devido à pressão de indexação desde a última inicialização de processo do OpenSearch Service.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

Esta métrica está disponível na versão 7.1 e posteriores.

PrimaryWriteRejected

O número total de rejeições que ocorreram nos fragmentos primários devido à pressão de indexação desde a última inicialização de processo do OpenSearch Service.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

Esta métrica está disponível na versão 7.1 e posteriores.

ReplicaWriteRejected

O número total de rejeições que ocorreram nos fragmentos de réplica devido à pressão de indexação desde a última inicialização de processo do OpenSearch Service.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

Esta métrica está disponível na versão 7.1 e posteriores.

Métricas do UltraWarm

O Amazon OpenSearch Service fornece as métricas a seguir para nós UltraWarm.

Métrica Descrição
WarmCPUUtilization

A porcentagem de utilização da CPU para nós UltraWarm no cluster. Maximum (Máximo) mostra o nó com a maior utilização da CPU. Average (Médio) representa todos os nós UltraWarm no cluster. Esta métrica também está disponível para nós UltraWarm individuais.

Estatísticas relevantes: máximo, média

WarmFreeStorageSpace

A quantidade de espaço de armazenamento de alta atividade livre em MiB. Como o UltraWarm usa o Amazon S3, em vez de discos conectados, Sum é a única estatística relevante. Você deve deixar o período em um minuto para receber um valor preciso.

Estatísticas relevantes: soma

WarmSearchableDocuments

O número total de documentos pesquisáveis em todos os índices warm no cluster. Você deve deixar o período em um minuto para receber um valor preciso.

Estatísticas relevantes: soma

WarmSearchLatency

A diferença no tempo total, em milissegundos, obtida por todas as pesquisas em um UltraWarm entre o minuto N e o minuto (N-1).

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máximo

WarmSearchRate

O número total de solicitações de pesquisa por minuto para todos os fragmentos em um nó UltraWarm. Uma única chamada para a API _search pode retornar resultados de muitos fragmentos diferentes. Se cinco desses fragmentos estiverem em um nó, o nó reportará 5 para essa métrica, mesmo se o cliente só fizer uma solicitação.

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máxima, soma

WarmStorageSpaceUtilization

A quantidade total de espaço de armazenamento de alta atividade, em MiB, que o cluster está usando.

Estatística relevante: máximo

HotStorageSpaceUtilization

A quantidade total de espaço de armazenamento de atividade muito alta que o cluster está usando.

Estatística relevante: máximo

WarmSysMemoryUtilization

A porcentagem de memória do nó de alta atividade que está em uso.

Estatística relevante: máximo

HotToWarmMigrationQueueSize

O número de índices aguardando no momento para a migração do armazenamento quente para o armazenamento warm.

Estatística relevante: máximo

WarmToHotMigrationQueueSize

O número de índices aguardando no momento para a migração do armazenamento warm para o armazenamento quente.

Estatística relevante: máximo

HotToWarmMigrationFailureCount

O número total de migrações de atividade muito alta para alta atividade que falharam.

Estatísticas relevantes: soma

HotToWarmMigrationForceMergeLatency

A latência média da etapa de forçar mesclagem do processo de migração. Se este estágio demorar muito de forma consistente, considere aumentar index.ultrawarm.migration.force_merge.max_num_segments.

Estatística relevante: média

HotToWarmMigrationSnapshotLatency

A latência média da etapa de snapshot do processo de migração. Se esse estágio demorar muito de forma consistente, certifique-se de que os fragmentos estejam adequadamente dimensionados e distribuídos por todo o cluster.

Estatística relevante: média

HotToWarmMigrationProcessingLatency

A latência média de migrações de atividade muito alta para alta atividade bem-sucedidas, nãoincluindo tempo gasto na fila. Esse valor é a soma do tempo necessário para concluir os estágios de forçar mesclagem, snapshot e realocação de fragmentos do processo de migração.

Estatística relevante: média

HotToWarmMigrationSuccessCount

O número total de migrações de atividade muito alta para alta atividade bem-sucedidas.

Estatísticas relevantes: soma

HotToWarmMigrationSuccessLatency

A latência média de migrações de atividade muito alta para alta atividade bem-sucedidas, incluindo tempo gasto na fila.

Estatística relevante: média

WarmThreadpoolSearchThreads

O tamanho do grupo de threads de pesquisa UltraWarm.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

WarmThreadpoolSearchRejected

O número de tarefas rejeitadas no grupo de threads de pesquisa UltraWarm. Se esse número continuar a crescer, considere adicionar mais nós UltraWarm.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma

WarmThreadpoolSearchQueue O número de tarefas na fila no grupo de threads de pesquisa UltraWarm. Se o tamanho da fila for consistentemente alto, considere adicionar mais nós UltraWarm.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

WarmJVMMemoryPressure

A porcentagem máxima do heap Java usada para os nós do UltraWarm.

Estatística relevante: máximo

nota

A lógica dessa métrica foi alterada no software de serviço R20220323. Para obter mais informações, consulte as notas de lançamento.

WarmOldGenJVMMemoryPressure

A porcentagem máxima do heap do Java usada para a "geração antiga" por nó UltraWarm.

Estatística relevante: máximo

WarmJVMGCYoungCollectionCount

O número de vezes que a coleta de residuos da “nova geração” foi executada em nós UltraWarm. Um grande número de execuções crescente é uma parte normal das operações do cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

WarmJVMGCYoungCollectionTime

A quantidade de tempo, em milissegundos, que o cluster gastou executando a coleta de lixo “nova geração” em nós UltraWarm.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

WarmJVMGCOldCollectionCount

O número de vezes que a coleta de residuos da “antiga geração” foi executada em nós UltraWarm. Em um cluster com recursos suficientes, esse número deve permanecer pequeno e com crescimento com pouca frequência.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

Métricas de armazenamento de baixa atividade

O Amazon OpenSearch Service fornece as métricas a seguir para armazenamento de baixa atividade.

Métrica Descrição
ColdStorageSpaceUtilization

A quantidade total de espaço de armazenamento de baixa atividade, em MiB, que o cluster está usando.

Estatísticas relevantes: máx.

ColdToWarmMigrationFailureCount

O número total de migrações de baixa atividade para alta atividade que falharam.

Estatísticas relevantes: soma

ColdToWarmMigrationLatency

A quantidade de tempo necessária para que as migrações de baixa atividade para alta atividade sejam concluídas.

Estatística relevante: média

ColdToWarmMigrationQueueSize

O número de índices aguardando no momento para a migração do armazenamento frio para o armazenamento warm.

Estatística relevante: máximo

ColdToWarmMigrationSuccessCount

O número total de migrações de baixa atividade para alta atividade bem-sucedidas.

Estatísticas relevantes: soma

WarmToColdMigrationFailureCount

O número total de migrações de alta atividade para baixa atividade que falharam.

Estatísticas relevantes: soma

WarmToColdMigrationLatency

A quantidade de tempo necessária para que as migrações de alta atividade para baixa atividade sejam concluídas.

Estatística relevante: média

WarmToColdMigrationQueueSize

O número de índices aguardando atualmente para migrar do armazenamento warm para o armazenamento frio.

Estatística relevante: máximo

WarmToColdMigrationSuccessCount

O número total de migrações de alta atividade para baixa atividade bem-sucedidas.

Estatísticas relevantes: soma

Métricas de OR1

O Amazon OpenSearch Service fornece as métricas a seguir para instâncias OR1.

Métrica Descrição
RemoteStorageUsedSpace

A quantidade total de espaço do Amazon S3, em MiB, que o cluster está usando.

Estatísticas relevantes: soma

RemoteStorageWriteRejected

O número total de solicitações rejeitadas nos fragmentos primários devido à pressão de armazenamento e replicação remotos. Isso é calculado a partir da última inicialização do processo do OpenSearch Service.

Estatísticas relevantes: soma

Métricas de alerta

O Amazon OpenSearch Service fornece as métricas a seguir para alertas.

Métrica Descrição
AlertingDegraded

Um valor de 1 significa que o índice de alerta é vermelho ou um ou mais nós não estão na programação. Um valor de 0 indica comportamento normal.

Estatística relevante: máximo

AlertingIndexExists

Um valor de 1 significa que o índice .opensearch-alerting-config existe. Um valor de 0 significa que não. Até que você use o recurso de alerta pela primeira vez, esse valor permanecerá como 0.

Estatística relevante: máximo

AlertingIndexStatus.green

A integridade do índice. Um valor de 1 significa verde. Um valor de 0 significa que o índice não existe ou não está verde.

Estatística relevante: máximo

AlertingIndexStatus.red

A integridade do índice. Um valor de 1 significa vermelho. Um valor de 0 significa que o índice não existe ou não está vermelho.

Estatística relevante: máximo

AlertingIndexStatus.yellow

A integridade do índice. Um valor de 1 significa amarelo. Um valor de 0 significa que o índice não existe ou não está amarelo.

Estatística relevante: máximo

AlertingNodesNotOnSchedule

Um valor de 1 significa que alguns trabalhos não estão sendo executados de acordo com a programação. Um valor de 0 significa que todos os trabalhos de alerta estão sendo executados de acordo com a programação (ou que não existem trabalhos de alerta). Verifique o console do OpenSearch Service ou faça uma solicitação _nodes/stats para ver se algum nó mostra uso elevado de recursos.

Estatística relevante: máximo

AlertingNodesOnSchedule

Um valor de 1 significa que todos os trabalhos de alerta estão em execução de acordo com a programação (ou que não existem trabalhos de alerta). Um valor de 0 significa que alguns trabalhos não estão sendo executados de acordo com a programação.

Estatística relevante: máximo

AlertingScheduledJobEnabled

Um valor de 1 significa que a configuração do cluster opensearch.scheduled_jobs.enabled é verdadeira. Um valor de 0 significa que é falsa e os trabalhos programados estão desabilitados.

Estatística relevante: máximo

Métricas de detecção de anomalias

O Amazon OpenSearch Service fornece as métricas a seguir para detecção de anomalias.

Métrica Descrição
ADPluginUnhealthy

Um valor de 1 significa que o plugin de detecção de anomalias não está funcionando corretamente, seja por causa de um alto número de falhas, seja porque um dos índices que ele usa é vermelho. Um valor de 0 indica que o plugin está funcionando conforme esperado.

Estatística relevante: máximo

ADExecuteRequestCount

O número de solicitações para detectar anomalias.

Estatísticas relevantes: soma

ADExecuteFailureCount

O número de solicitações com falha para detecção de anomalias.

Estatísticas relevantes: soma

ADHCExecuteFailureCount

O número de solicitações de detecção de anomalias para detectores de alta cardinalidade que falharam.

Estatísticas relevantes: soma

ADHCExecuteRequestCount

O número de solicitações de detecção de anomalias para detectores de alta cardinalidade.

Estatísticas relevantes: soma

ADAnomalyResultsIndexStatusIndexExists

Um valor de 1 significa que o índice para o qual o alias .opensearch-anomaly-results aponta existe. Até que o recurso de detecção de anomalias seja usado pela primeira vez, esse valor permanecerá 0.

Estatística relevante: máximo

ADAnomalyResultsIndexStatus.red

Um valor de 1 significa que o índice para o qual o alias .opensearch-anomaly-results aponta é vermelho. Um valor de 0 significa que não é. Até que o recurso de detecção de anomalias seja usado pela primeira vez, esse valor permanecerá 0.

Estatística relevante: máximo

ADAnomalyDetectorsIndexStatusIndexExists

Um valor de 1 significa que o índice .opensearch-anomaly-detectors existe. Um valor de 0 significa que não. Até que o recurso de detecção de anomalias seja usado pela primeira vez, esse valor permanecerá 0.

Estatística relevante: máximo

ADAnomalyDetectorsIndexStatus.red

Um valor de 1 significa que o índice .opensearch-anomaly-detectors é vermelho. Um valor de 0 significa que não é. Até que o recurso de detecção de anomalias seja usado pela primeira vez, esse valor permanecerá 0.

Estatística relevante: máximo

ADModelsCheckpointIndexStatusIndexExists

Um valor de 1 significa que o índice .opensearch-anomaly-checkpoints existe. Um valor de 0 significa que não. Até que o recurso de detecção de anomalias seja usado pela primeira vez, esse valor permanecerá 0.

Estatística relevante: máximo

ADModelsCheckpointIndexStatus.red

Um valor de 1 significa que o índice .opensearch-anomaly-checkpoints é vermelho. Um valor de 0 significa que não é. Até que o recurso de detecção de anomalias seja usado pela primeira vez, esse valor permanecerá 0.

Estatística relevante: máximo

O Amazon OpenSearch Service fornece as métricas a seguir para pesquisa assíncrona.

Estatísticas de nó coordenador de pesquisa assíncrona (por nó coordenador)

Métrica Descrição
AsynchronousSearchSubmissionRate

O número de pesquisas assíncronas enviadas no último minuto.

AsynchronousSearchInitializedRate

O número de pesquisas assíncronas inicializadas no último minuto.

AsynchronousSearchRunningCurrent

O número de pesquisas assíncronas atualmente em execução.

AsynchronousSearchCompletionRate

O número de pesquisas assíncronas concluídas com êxito no último minuto.

AsynchronousSearchFailureRate

O número de pesquisas assíncronas que foram concluídas e falharam no último minuto.

AsynchronousSearchPersistRate

O número de pesquisas assíncronas que persistiram no último minuto.

AsynchronousSearchPersistFailedRate

O número de pesquisas assíncronas que falharam ao persistir no último minuto.

AsynchronousSearchRejected

O número total de pesquisas assíncronas rejeitadas desde o momento de ativação do nó.

AsynchronousSearchCancelled

O número total de pesquisas assíncronas canceladas desde o momento de ativação do nó.

AsynchronousSearchMaxRunningTime

A duração da pesquisa assíncrona de execução mais longa em um nó no último minuto.

Estatísticas de cluster de pesquisa assíncrona

Métrica Descrição
AsynchronousSearchStoreHealth

A integridade do armazenamento no índice persistido (vermelho/não vermelho) no último minuto.

AsynchronousSearchStoreSize

O tamanho do índice do sistema em todos os fragmentos no último minuto.

AsynchronousSearchStoredResponseCount

O número de respostas armazenadas no índice do sistema no último minuto.

Métricas do Auto-Tune

O Amazon OpenSearch Service fornece as métricas a seguir para Auto-Tune.

Métrica Descrição
AutoTuneChangesHistoryHeapSize

O histórico de alterações em MiB para valores de ajuste do tamanho da pilha.

AutoTuneChangesHistoryJVMYoungGenArgs

O histórico de alterações dos argumentos do JVM YongGen.

AutoTuneFailed

Um booleano que indica se a alteração do Auto-Tune falhou.

AutoTuneSucceeded

Um booleano que indica se a alteração do Auto-Tune foi bem-sucedida.

AutoTuneValue O histórico de alterações da fila (contagem) e o histórico de alterações dos ajustes do cache (em MiB) para alterações sem interrupções.

Métricas do multi-AZ com modo de espera

O Amazon OpenSearch Service fornece as métricas a seguir para multi-AZ com modo de espera.

Métricas em nível de nó para nós de dados em zonas de disponibilidade ativas

Métrica Descrição
CPUUtilization A porcentagem de utilização da CPU para nós de dados no cluster. Maximum (Máximo) mostra o nó com a maior utilização da CPU. Average (Médio) representa todos os nós no cluster. Esta métrica também está disponível para nós individuais.
FreeStorageSpace

O espaço livre para nós de dados no cluster. Sum mostra o espaço livre total para o cluster, mas é necessário deixar o período em um minuto para obter um valor exato. Minimum e Maximum mostram os nós com o menor e o maior espaço livre, respectivamente. Esta métrica também está disponível para nós individuais. O serviço OpenSearch emite um ClusterBlockException quando essa métrica atinge0. Para recuperar, você deve excluir índices, adicionar instâncias maiores ou adicionar armazenamento EBS às instâncias existentes. Para saber mais, consulte Falta de espaço de armazenamento disponível.

O console do OpenSearch Service exibe esse valor em GiB. O console do Amazon CloudWatch exibe-o em MiB.

JVMMemoryPressure A porcentagem máxima do heap Java usada para todos os nós de dados no cluster. O OpenSearch Service usa metade da RAM de uma instância para o heap do Java, com um tamanho de heap de 32 GiB. Você pode dimensionar instâncias verticalmente até 64 GiB de RAM, sendo que nesse ponto você poderá dimensionar horizontalmente adicionando instâncias. Consulte CloudWatch Alarmes recomendados para o Amazon Service OpenSearch .
SysMemoryUtilization O percentual de memória da instância que está em uso. Valores altos para essa métrica são normais e geralmente não representam um problema com seu cluster. Para obter um melhor indicador de possíveis problemas de performance e estabilidade, consulte a métrica JVMMemoryPressure.
IndexingLatency

A diferença no tempo total, em milissegundos, obtida por todas as operações de indexação em um nó entre o minuto N e o minuto (N-1).

IndexingRate O número de operações de indexação por minuto.
SearchLatency

A diferença no tempo total, em milissegundos, obtida por todas as pesquisas em um nó entre o minuto N e o minuto (N-1).

SearchRate O número total de solicitações de pesquisa por minuto para todos os fragmentos em um nó de dados.
ThreadpoolSearchQueue O número de tarefas na fila no grupo de thread de pesquisa. Se o tamanho da fila é consistentemente alto, considere escalonar seu cluster. O tamanho da fila de pesquisa máximo é 1.000.
ThreadpoolWriteQueue O número de tarefas na fila no grupo de threads de gravação.
ThreadpoolSearchRejected

O número de tarefas rejeitadas no grupo de thread de pesquisa. Se esse número continuar a crescer, considere escalonar seu cluster.

ThreadpoolWriteRejected O número de tarefas rejeitadas no grupo de threads de gravação.

Métricas no nível do cluster para clusters em zonas de disponibilidade ativas

Métrica Descrição
DataNodes O número total de fragmentos ativos e em espera.
DataNodesShards.active O número total de fragmentos ativos primários e de réplica.
DataNodesShards.unassigned

O número de fragmentos que não estão alocados a nós no cluster.

DataNodesShards.initializing O número de fragmentos que estão em inicialização.
DataNodesShards.relocating O número de fragmentos que estão em relocação.

Métricas de alternação da zona de disponibilidade

Se ActiveReads.Availability-Zone = 1, então a zona está ativa. Se ActiveReads.Availability-Zone = 0, então a zona está em modo de espera.

Métricas pontuais

O Amazon OpenSearch Service fornece as métricas a seguir para pesquisas de ponto de tempo (PIT).

Estatísticas de nó coordenador de PIT (por nó coordenador)

Métrica Descrição
CurrentPointInTime O número de contextos de pesquisa PIT ativos no nó.
TotalPointInTime O número de contextos de pesquisa de PIT expirados desde o momento de ativação do nó.
AvgPointInTimeAliveTime A média de manutenção ativa dos contextos de pesquisa de PIT desde o momento de ativação do nó.
HasActivePointInTime Um valor de 1 indica que há contextos PIT ativos nos nós desde o tempo de atividade do nó. Um valor de zero significa que não há.
HasUsedPointInTime Um valor de 1 indica que há contextos PIT ativos nos nós desde o tempo de atividade do nó. Um valor de zero significa que não há.

Métricas de SQL

O Amazon OpenSearch Service fornece as métricas a seguir para suporte a SQL.

Métrica Descrição
SQLFailedRequestCountByCusErr

O número de solicitações com falha para a API _sql devido a um problema do cliente. Por exemplo, uma solicitação pode retornar o código de status HTTP 400 devido a um IndexNotFoundException.

Estatísticas relevantes: soma

SQLFailedRequestCountBySysErr

O número de solicitações com falha para a API _sql devido a um problema de servidor ou limitação de recurso. Por exemplo, uma solicitação pode retornar o código de status HTTP 503 devido a um VerificationException.

Estatísticas relevantes: soma

SQLRequestCount

O número de solicitações para a API _sql.

Estatísticas relevantes: soma

SQLDefaultCursorRequestCount

Semelhante a SQLRequestCount, mas conta apenas solicitações de paginação.

Estatísticas relevantes: soma

SQLUnhealthy

Um valor 1 indica que, em resposta a determinadas solicitações, o plugin do SQL está retornando códigos de resposta 5xx ou passando DSL de consulta inválida para o OpenSearch. Outras solicitações devem continuar a ter êxito. Um valor de 0 indica que não há falhas recentes. Se você vir um valor sustentado de 1, solucione o problema das solicitações que seus clientes estão fazendo ao plugin.

Estatística relevante: máximo

Métricas de k-NN

O Amazon OpenSearch Service inclui as métricas a seguir para o plugin de k-vizinhos mais próximos (k-NN).

Métrica Descrição
KNNCacheCapacityReached

Métrica por nó para determinar se a capacidade do cache foi atingida. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatística relevante: máximo

KNNCircuitBreakerTriggered

Métrica por cluster para determinar se o disjuntor foi acionado. Se algum nó retornar um valor 1 para KNNCacheCapacityReached, esse valor também retornará 1. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatística relevante: máximo

KNNEvictionCount

Métrica por nó para o número de gráficos que foram removidos do cache devido a restrições de memória ou tempo ocioso. Remoções explícitas que ocorrem devido à exclusão do índice não são contadas. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatísticas relevantes: soma

KNNGraphIndexErrors

Métrica por nó para o número de solicitações para adicionar o campo knn_vector de um documento a um gráfico que produziram erros.

Estatísticas relevantes: soma

KNNGraphIndexRequests

Métrica por nó para o número de solicitações para adicionar o campo knn_vector de um documento a um gráfico.

Estatísticas relevantes: soma

KNNGraphMemoryUsage

Métrica por nó para o tamanho do cache atual (tamanho total de todos os gráficos na memória) em kilobytes. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatística relevante: média

KNNGraphQueryErrors

Métrica por nó para o número de consultas de gráfico que produziram erros.

Estatísticas relevantes: soma

KNNGraphQueryRequests

Métrica por nó para o número de consultas de gráfico.

Estatísticas relevantes: soma

KNNHitCount

Métrica por nó para o número de acertos de cache. Um acerto de cache ocorre quando um usuário consulta um gráfico que já está carregado na memória. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatísticas relevantes: soma

KNNLoadExceptionCount

Métrica por nó para o número de vezes que uma exceção ocorreu ao tentar carregar um gráfico no cache. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatísticas relevantes: soma

KNNLoadSuccessCount

Métrica por nó para o número de vezes que o plugin carregou com êxito um gráfico no cache. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatísticas relevantes: soma

KNNMissCount

Métrica por nó para o número de perdas do cache. Uma perda de cache ocorre quando um usuário consulta um gráfico que ainda não está carregado na memória. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatísticas relevantes: soma

KNNQueryRequests

Métrica por nó para o número de solicitações de consulta recebidas pelo plugin k-NN.

Estatísticas relevantes: soma

KNNScriptCompilationErrors

Métrica por nó para o número de erros durante a compilação de scripts. Essa estatística só é relevante para a pesquisa de scripts de pontuação k-NN.

Estatísticas relevantes: soma

KNNScriptCompilations

Métrica por nó para o número de vezes que o script k-NN foi compilado. Esse valor normalmente deve ser 1 ou 0, mas se o cache que contém os scripts compilados estiver preenchido, o script k-NN poderá ser recompilado. Essa estatística só é relevante para a pesquisa de scripts de pontuação k-NN.

Estatísticas relevantes: soma

KNNScriptQueryErrors

Métrica por nó para o número de erros durante consultas de scripts. Essa estatística só é relevante para a pesquisa de scripts de pontuação k-NN.

Estatísticas relevantes: soma

KNNScriptQueryRequests

Métrica por nó para o número total de consultas de scripts. Essa estatística só é relevante para a pesquisa de scripts de pontuação k-NN.

Estatísticas relevantes: soma

KNNTotalLoadTime

O tempo em nanossegundos que o algoritmo k-NN demorou para carregar gráficos no cache. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatísticas relevantes: soma

O Amazon OpenSearch Service fornece as métricas a seguir para pesquisa entre clusters.

Métricas de domínio de origem

Métrica Dimensão Descrição
CrossClusterOutboundConnections

ConnectionId

Número de nós conectados. Se sua resposta incluir um ou mais domínios ignorados, use essa métrica para rastrear quaisquer conexões não íntegras. Se esse número cair para 0, a conexão não estará íntegra.

CrossClusterOutboundRequests

ConnectionId

Número de solicitações de pesquisa enviadas para o domínio de destino. Use para verificar se a carga de solicitações de pesquisa entre clusters está sobrecarregando o domínio, correlacione qualquer pico nessa métrica com qualquer pico de JVM/CPU.

Métrica de domínio de destino

Métrica Dimensão Descrição
CrossClusterInboundRequests

ConnectionId

Número de solicitações de conexão de entrada recebidas do domínio de origem.

Adicione um alarme do CloudWatch caso você perca uma conexão inesperadamente. Para obter as etapas para criação de um alarme, consulte Criar um alarme do CloudWatch com base em limite estático.

Métricas de replicação entre clusters

O Amazon OpenSearch Service fornece as métricas a seguir para replicação entre clusters.

Métrica Descrição
ReplicationRate

A taxa média de operações de replicação por segundo. Essa métrica é semelhante à métrica do IndexingRate.

LeaderCheckPoint

Para uma conexão específica, a soma dos valores do ponto de verificação líder em todos os índices de replicação. Você pode usar essa métrica para medir a latência de replicação.

FollowerCheckPoint

Para uma conexão específica, a soma dos valores do ponto de verificação seguidor em todos os índices de replicação. Você pode usar essa métrica para medir a latência de replicação.

ReplicationNumSyncingIndices

O número de índices que têm um status de replicação de SYNCING.

ReplicationNumBootstrappingIndices

O número de índices que têm um status de replicação de BOOTSTRAPPING.

ReplicationNumPausedIndices

O número de índices que têm um status de replicação de PAUSED.

ReplicationNumFailedIndices

O número de índices que têm um status de replicação de FAILED.

CrossClusterOutboundReplicationRequests

O número de solicitações de transporte de replicação no domínio seguidor. Solicitações de transporte são internas e ocorrem sempre que uma operação de API de replicação é chamada. Também ocorrem quando as pesquisas do domínio do seguidor mudam do domínio líder.

CrossClusterInboundReplicationRequests

O número de solicitações de transporte de replicação no domínio líder. Solicitações de transporte são internas e ocorrem sempre que uma operação de API de replicação é chamada.

AutoFollowNumSuccessStartReplication

O número de índices seguidores que foram criados com êxito por uma regra de replicação para uma conexão específica.

AutoFollowNumFailedStartReplication

O número de índices seguidores que falharam ao serem criados por uma regra de replicação quando havia um padrão de correspondência. Esse problema pode surgir devido a um problema de rede no cluster remoto ou devido a um problema de segurança (ou seja, a função associada não tem permissão para iniciar a replicação).

AutoFollowLeaderCallFailure

Se houve alguma consulta com falha entre o índice seguidor e o índice líder para extrair novos dados. Um valor de 1 significa que houve uma ou mais chamadas com falha no último minuto.

Métricas de Learning to Rank

O Amazon OpenSearch Service fornece as métricas a seguir para Learning to Rank.

Métrica Descrição
LTRRequestTotalCount

Contagem total de solicitações de classificação.

LTRRequestErrorCount

Contagem total de solicitações malsucedidas.

LTRStatus.red

Rastreia se um dos índices necessários para executar o plugin é vermelho.

LTRMemoryUsage

Memória total usada pelo plugin.

LTRFeatureMemoryUsageInBytes

A quantidade de memória, em bytes, usada pelos campos de recursos do Learning to Rank.

LTRFeaturesetMemoryUsageInBytes

A quantidade de memória, em bytes, usada por todos os conjuntos de recursos do Learning to Rank.

LTRModelMemoryUsageInBytes

A quantidade de memória, em bytes, usada por todos os modelos do Learning to Rank.

Métricas da Piped Processing Language

O Amazon OpenSearch Service fornece as métricas a seguir para a Piped Processing Language.

Métrica Descrição
PPLFailedRequestCountByCusErr

O número de solicitações com falha para a API _ppl devido a um problema do cliente. Por exemplo, uma solicitação pode retornar o código de status HTTP 400 devido a um IndexNotFoundException.

PPLFailedRequestCountBySysErr

O número de solicitações com falha para a API _ppl devido a um problema de servidor ou limitação de recurso. Por exemplo, uma solicitação pode retornar o código de status HTTP 503 devido a um VerificationException.

PPLRequestCount

O número de solicitações para a API _ppl.