Monitorar o Amazon Redshift usando métricas do CloudWatch - Amazon Redshift

Monitorar o Amazon Redshift usando métricas do CloudWatch

Usando as métricas do CloudWatch para Amazon Redshift, você pode obter informações sobre a integridade e a performance do seu cluster e ver as informações no nível do nó. Ao trabalhar com essas métricas, é importante lembrar que cada uma delas tem uma ou mais dimensões associadas. Essas dimensões informam a que a métrica se aplica, ou seja, o escopo da métrica. O Amazon Redshift tem as seguintes duas dimensões:

  • As métricas que têm uma dimensão NodeID são métricas que fornecem dados de performance de nós de um cluster. Esse conjunto de métricas inclui nós de computação e líderes. Entre os exemplos dessas métricas estão CPUUtilization, ReadIOPS, WriteIOPS.

  • As métricas que têm somente uma dimensão ClusterIdentifier são métricas que fornecem dados de performance para os clusters. Entre os exemplos dessas métricas estão HealthStatus e MaintenanceMode.

    nota

    Em alguns casos, uma métrica específica do cluster representa uma agregação de comportamento do nó. Nesses casos, cuidado ao interpretar o valor da métrica, pois o comportamento do nó líder é agregado ao nó de computação.

Para obter informações gerais sobre as métricas e dimensões do CloudWatch, consulte Conceitos do CloudWatch no Manual do usuário do Amazon CloudWatch.

Para obter uma descrição mais detalhada das métricas do CloudWatch para Amazon Redshift, consulte as seções a seguir.

Métricas do Amazon Redshift

O namespace AWS/Redshift inclui as métricas a seguir. Salvo indicação em contrário, as métricas são coletadas em intervalos de 1 minuto.

Cargo
Métrica Descrição
CommitQueueLength

O número de transações que aguardam confirmação em algum momento.

Unidades: contagem

Dimensões: ClusterIdentifier

ConcurrencyScalingActiveClusters

O número de clusters de escalabilidade da simultaneidade que estão processando consultas ativamente em um determinado momento.

Unidades: contagem

Dimensões: ClusterIdentifier

ConcurrencyScalingSeconds

O número de segundos usados pelos clusters de escalabilidade da simultaneidade que têm atividade de processamento ativo de consultas.

Unidades: contagem

Dimensões: ClusterIdentifier

CPUUtilization

O percentual de utilização da CPU. Para clusters, esta métrica representa uma agregação dos valores de utilização da CPU de todos os nós (principais e de computação).

Unidades: percentual

Dimensões: ClusterIdentifier, NodeID

Dimensões: ClusterIdentifier

DatabaseConnections

O número de conexões do banco de dados com um cluster.

Unidades: contagem

Dimensões: ClusterIdentifier

HealthStatus

Indica a saúde do cluster. A cada minuto, o cluster se conecta ao banco de dados e executa uma consulta simples. Se conseguir executar essa operação com êxito, o cluster é considerado saudável. Caso contrário, o cluster está com problemas. Um status não saudável pode ocorrer quando o banco de dados do cluster está sob carga extremamente pesada ou se houver um problema de configuração com um banco de dados no cluster.

nota

No Amazon CloudWatch, essa métrica é relatada como 1 ou 0, enquanto no console do Amazon Redshift, essa métrica é exibida com as palavras HEALTHY ou UNHEALTHY por conveniência. Quando essa métrica é exibida no console do Amazon Redshift, as médias de amostragem são ignoradas e apenas HEALTHY ou UNHEALTHY são exibidas. No Amazon CloudWatch, valores diferentes de 1 e 0 podem ocorrer devido a problemas de amostragem. Qualquer valor abaixo de 1 para HealthStatus é reportado como 0 (UNHEALTHY).

Unidades: contagem (1/0) (HEALTHY/UNHEALTHY no console do Amazon Redshift)

Dimensões: ClusterIdentifier

MaintenanceMode

Indica se o cluster está no modo de manutenção.

nota

No Amazon CloudWatch, essa métrica é relatada como 1 ou 0, enquanto no console do Amazon Redshift, essa métrica é exibida com as palavras ON ou OFF por conveniência. Quando essa métrica é exibida no console do Amazon Redshift, as médias de amostragem são ignoradas e apenas ON ou OFF são exibidas. No Amazon CloudWatch, valores diferentes de 1 e 0 podem ocorrer devido a problemas na amostragem. Qualquer valor acima de 0 para MaintenanceMode é reportado como 1 (ON).

Unidades: contagem (1/0) (ON/OFF no console do Amazon Redshift).

Dimensões: ClusterIdentifier

MaxConfiguredConcurrencyScalingClusters

Número máximo de clusters de escalabilidade da simultaneidade configurados a partir do grupo de parâmetros. Para obter mais informações, consulte Grupos de parâmetros do Amazon Redshift.

Unidades: contagem

Dimensões: ClusterIdentifier

NetworkReceiveThroughput

A taxa em que o nó ou cluster recebe dados.

Unidade: bytes/segundo (MB/s no console do Amazon Redshift)

Dimensões: ClusterIdentifier, NodeID

Dimensões: ClusterIdentifier

NetworkTransmitThroughput

A taxa em que o nó ou cluster grava dados.

Unidade: bytes/segundo (MB/s no console do Amazon Redshift)

Dimensões: ClusterIdentifier, NodeID

Dimensões: ClusterIdentifier

PercentageDiskSpaceUsed

O percentual do espaço em disco utilizado.

Unidades: percentual

Dimensões: ClusterIdentifier

Dimensões: ClusterIdentifier, NodeID

QueriesCompletedPerSecond

O número médio de consultas concluídas por segundo. Relatado em intervalos de 5 minutos. Essa métrica não é compatível com clusters de nó único.

Unidade: contagem/segundo

Dimensões: ClusterIdentifier, latency

Dimensões: ClusterIdentifier, wlmid

QueryDuration

O tempo médio para concluir uma consulta. Relatado em intervalos de 5 minutos. Essa métrica não é compatível com clusters de nó único.

Unidade: microssegundos

Dimensões: ClusterIdentifier, NodeID, latency

Dimensões: ClusterIdentifier, latency

Dimensões: ClusterIdentifier, NodeID, wlmid

QueryRuntimeBreakdown

O tempo total que as consultas gastam em execução por estágio de consulta. Relatado em intervalos de 5 minutos.

Unidade: milissegundos

Dimensões: ClusterIdentifier, NodeID, stage

Dimensões: ClusterIdentifier, stage

ReadIOPS

O número médio de operações de leitura de disco por segundo.

Unidade: contagem/segundo

Dimensões: ClusterIdentifier, NodeID

Dimensões: ClusterIdentifier

ReadLatency

O tempo médio necessário para operações de I/O de leitura de disco.

Unidades: segundos

Dimensões: ClusterIdentifier, NodeID

Dimensões: ClusterIdentifier

ReadThroughput

O número médio de bytes lidos do disco por segundo.

Unidade: bytes (GB/s no console do Amazon Redshift)

Dimensões: ClusterIdentifier, NodeID

Dimensões: ClusterIdentifier

RedshiftManagedStorageTotalCapacity

Capacidade total de armazenamento gerenciado.

Unidades: megabytes

Dimensões: ClusterIdentifier

TotalTableCount

O número de tabelas de usuário abertas em um momento específico. Esse total não inclui tabelas do Amazon Redshift Spectrum.

Unidades: contagem

Dimensões: ClusterIdentifier

WLMQueueLength

O número de consultas aguardando para entrar em uma fila de gerenciamento do workload (WLM).

Unidades: contagem

Dimensões: ClusterIdentifier, service class

Dimensões: ClusterIdentifier, QueueName

WLMQueueWaitTime

Tempo total que as consultas ficaram esperando na fila de gerenciamento do workload (WLM). Relatado em intervalos de 5 minutos.

Unidade: milissegundos.

Dimensões: ClusterIdentifier, QueryPriority

Dimensões: ClusterIdentifier, wlmid

Dimensões: ClusterIdentifier, QueueName

WLMQueriesCompletedPerSecond

O número médio de consultas concluídas por segundo de uma fila de gerenciamento do workload (WLM). Relatado em intervalos de 5 minutos. Essa métrica não é compatível com clusters de nó único.

Unidade: contagem/segundo

Dimensões: ClusterIdentifier, wlmid

Dimensões: ClusterIdentifier, QueueName

WLMQueryDuration

O tempo médio para concluir uma consulta de uma fila de gerenciamento do workload (WLM). Relatado em intervalos de 5 minutos. Essa métrica não é compatível com clusters de nó único.

Unidade: microssegundos

Dimensões: ClusterIdentifier, wlmid

Dimensões: ClusterIdentifier, QueueName

WLMRunningQueries

O número de consultas em execução no cluster principal e no cluster de escalabilidade da simultaneidade por fila do WLM.

Unidades: contagem

Dimensões: ClusterIdentifier, wlmid

Dimensões: ClusterIdentifier, QueueName

WriteIOPS

O número médio de operações de gravação por segundo.

Unidade: contagem/segundo

Dimensões: ClusterIdentifier, NodeID

Dimensões: ClusterIdentifier

WriteLatency

O tempo médio necessário para operações de I/O de gravação em disco.

Unidades: segundos

Dimensões: ClusterIdentifier, NodeID

Dimensões: ClusterIdentifier

WriteThroughput

O número médio de bytes gravados no disco por segundo.

Unidade: bytes (GB/s no console do Amazon Redshift)

Dimensões: ClusterIdentifier, NodeID

Dimensões: ClusterIdentifier

SchemaQuota

A cota configurada para um esquema.

Unidades: megabytes

Dimensões: ClusterIdentifier, Database, Schema

Periódio/Push: Periodic

Frequência: 5 minutes

Critérios de parada: esquema descartado ou cota removida

NumExceededSchemaQuotas

O número de esquemas com cotas excedidas.

Unidades: contagem

Dimensões: ClusterIdentifier

Periódio/Push: Periodic

Frequência: 5 minutes

Critérios de parada: N/D

StorageUsed

O disco ou o espaço de armazenamento usado por um esquema.

Unidades: megabytes

Dimensões: ClusterIdentifier, Database, Schema

Periódio/Push: Periodic

Frequência: 5 minutes

Critérios de parada: esquema descartado ou cota removida

PercentageQuotaUsed

A porcentagem de espaço em disco ou armazenamento usado em relação à cota de esquema configurada.

Unidades: percentual

Dimensões: ClusterIdentifier, Database, Schema

Periódio/Push: Periodic

Frequência: 5 minutes

Critérios de parada: esquema descartado ou cota removida

UsageLimitAvailable

Dependendo de FeatureType, UsageLimitAvailable retorna o seguinte:

  • Se FeatureType for CONCURRENCY_SCALING, UsageLimitAvailable retornará o tempo total que pode ser usado pela escala de simultaneidade em incrementos de 1 minuto.

  • Se FeatureType for CROSS_REGION_DATASHARING, UsageLimitAvailable retornará o volume total de dados que pode ser examinado em incrementos de 1 TB.

  • Se FeatureType for SPECTRUM, UsageLimitAvailable retornará o volume total de dados que pode ser examinado em incrementos de 1 TB.

Unidades: minutos ou TBs

Dimensões: ClusterIdentifier, FeatureType, UsageLimitId

UsageLimitConsumed

Dependendo de FeatureType, UsageLimitConsumed retorna o seguinte:

  • Se FeatureType for CONCURRENCY_SCALING, UsageLimitAvailable retornará o tempo total usado pela escala de simultaneidade em incrementos de 1 minuto.

  • Se FeatureType for CROSS_REGION_DATASHARING, UsageLimitAvailable retornará o volume total de dados examinado em incrementos de 1 TB.

  • Se FeatureType for SPECTRUM, UsageLimitAvailable retornará o volume total de dados examinado em incrementos de 1 TB.

Unidades: minutos ou TBs

Dimensões: ClusterIdentifier, FeatureType, UsageLimitId

Dimensões para métricas do Amazon Redshift

Os dados do Amazon Redshift podem ser filtrados em qualquer uma das dimensões na tabela a seguir.

Dimensão Descrição
latency

Os valores possíveis são:

  • curto - abaixo de 10 segundos

  • médio - entre 10 segundos e 10 minutos

  • longo - acima de 10 minutos

NodeID

Filtra os dados solicitados que são específicos para os nós de um cluster. NodeID é "Leader”, “Shared” ou “Compute-N”, sendo N 0, 1,... conforme o número de nós no cluster. “Shared” significa que o cluster tem apenas um nó, ou seja, o nó principal e o nó de computação são combinados.

As métricas só são relatadas pelo nó de liderança e pelos nós de computação para CPUUtilization, NetworkTransmitThroughput e ReadIOPS. Outras métricas que usam a dimensão NodeId são relatadas somente para nós de computação.

ClusterIdentifier

Filtra os dados solicitados que são específicos ao cluster. As métricas específicas a clusters incluem HealthStatus, MaintenanceMode e DatabaseConnections. De modo geral, métricas para esta dimensão (por exemplo, ReadIOPS) que também são métricas de nós representam um conjunto dos dados na métrica do nó. Atente-se ao interpretar essas métricas porque elas reúnem o comportamento de nós principais e de computação.

service class

O identificador de uma classe de serviço WLM.

stage

Os estágios de execução de uma consulta. Os valores possíveis são:

  • QueryPlanning: tempo gasto analisando e otimizando comandos de SQL.

  • QueryWaiting: tempo gasto esperando na fila de WLM.

  • QueryExecutingRead: Tempo gasto executando leitura de consultas.

  • QueryExecutingInsert: Tempo gasto executando inserção de consultas.

  • QueryExecutingDelete: Tempo gasto executando exclusão de consultas.

  • QueryExecutingUpdate: Tempo gasto executando atualização de consultas.

  • QueryExecutingCtas: Tempo gasto executando consultas de "criar tabela como".

  • QueryExecutingUnload: Tempo gasto executando descarregamento de consultas.

  • QueryExecutingCopy: Tempo gasto executando cópia de consultas.

  • QueryCommit: Confirmar tempo gasto.

wlmid

O identificador para uma fila de gerenciamento do workload.

QueryPriority

A prioridade da consulta. Os valores possíveis são CRITICAL, HIGHEST, HIGH, NORMAL, LOW e LOWEST.

QueueName

O nome da fila de gerenciamento de workload.

FeatureType

O recurso limitado por um limite de uso. Os valores possíveis são CONCURRENCY_SCALING, CROSS_REGION_DATASHARING e SPECTRUM.

UsageLimitId

O identificador de um limite de uso.

Dados de performance de consulta e carga do Amazon Redshift

Além das métricas do CloudWatch, o Amazon Redshift fornece dados de performance de consulta e carga. Os dados de consulta e carga podem ser usados para ajudar a entender a relação entre a performance do banco de dados e as métricas do cluster. Por exemplo, se perceber que a CPU de um cluster atingiu o pico, você poderá saber o pico no gráfico de CPU do cluster e ver as consultas que estavam em execução nesse momento. Por outro lado, se você estiver avaliando uma consulta específica, os dados da métrica (como CPU) serão exibidos no contexto, de maneira que possa compreender o impacto da consulta sobre as métricas do cluster.

Os dados de performance de consulta e carga não são publicados como métricas do CloudWatch e só podem ser visualizados no console do Amazon Redshift. Os dados de performance de consulta e carga são gerados consultando-se as tabelas do sistema do banco de dados (para obter mais informações, consulte Referência de tabelas do sistema no Guia do desenvolvedor do Amazon Redshift). Você também pode gerar as próprias consultas de performance do banco de dados personalizadas, mas recomendamos começar com os dados de performance de consulta e carga apresentados no console. Para obter mais informações sobre como medir e monitorar a performance do banco de dados por conta própria, consulte Gerenciar a performance, no Guia do desenvolvedor do Amazon Redshift.

A tabela a seguir descreve diferentes aspectos de consulta e carregamento de dados que você pode acessar no console do Amazon Redshift.

Dados de consulta/carga Descrição
Resumo da consulta

Uma lista de consultas em um período especificado. A lista pode ser classificada em valores como ID de consulta, tempo de execução da consulta e status. Visualize esses dados na guia Monitoramento de consulta da página de detalhes do cluster.

Detalhes da consulta

Dá detalhes sobre uma consulta específica, inclusive:

  • Propriedades de consulta como o ID de consulta, o tipo, o cluster no qual a consulta foi executada e o tempo de execução.

  • Detalhes como o status da consulta e o número de erros.

  • O comando SQL que foi executado.

  • Um plano de explicação, se disponível.

  • Dados de performance do cluster durante a execução da consulta (para obter mais informações, consulte Visualizar dados do histórico de consultas).

Resumo da carga

Lista todas as cargas em um período especificado. A lista pode ser classificada em valores como ID de consulta, tempo de execução da consulta e status. Visualize esses dados na guia Monitoramento de consulta da página de detalhes do cluster.

Detalhes da carga

Dá detalhes sobre uma operação de carga específica, inclusive:

  • Propriedades de carga como o ID de consulta, o tipo, o cluster no qual a consulta foi executada e o tempo de execução.

  • Detalhes como o status da carga e o número de erros.

  • O comando SQL que foi executado.

  • Uma lista de arquivos carregados.

  • Dados de performance de cluster durante a operação de carga (para obter mais informações, consulte Visualizar dados do histórico de consultas).