Monitore as políticas do Data Lifecycle Manager usando o CloudWatch - Amazon EBS

Monitore as políticas do Data Lifecycle Manager usando o CloudWatch

É possível monitorar as políticas de ciclo de vida do Amazon Data Lifecycle Manager usando o Amazon CloudWatch, que coleta e processa dados brutos em métricas legíveis quase que em tempo real. É possível usar essas métricas para ver exatamente quantos snapshots do Amazon EBS e AMIs baseadas no EBS são criados, excluídos e copiados por suas políticas ao longo do tempo. Também é possível definir alarmes que observam determinados limites e enviam notificações ou realizam ações quando esses limites são atingidos.

As métricas ficam armazenadas por um período de 15 meses para que você possa acessar informações históricas e obter uma compreensão melhor sobre a performance de suas políticas de ciclo de vida em um período prolongado.

Para obter mais informações sobre o Amazon CloudWatch, consulte o Manual do usuário do Amazon CloudWatch.

Métricas compatíveis

O namespace do Data Lifecycle Manager inclui as seguintes métricas das políticas de ciclo de vida do Amazon Data Lifecycle Manager. As métricas compatíveis diferem de acordo com o tipo de política.

Todas as métricas podem ser medidas na dimensão do DLMPolicyId. As estatísticas mais úteis são sum e average, e a unidade de medida é count.

Escolha uma guia para visualizar as métricas compatíveis com esse tipo de política.

EBS snapshot policies
Métrica Descrição

ResourcesTargeted

O número de recursos de destino das tags especificadas em um snapshot ou política de AMI baseada no EBS.

SnapshotsCreateStarted

O número de ações de criação de snapshots iniciadas por uma política de snapshot. Toda ação é registrada apenas uma vez, mesmo que haja várias tentativas subsequentes.

Se uma ação de criação de snapshots falhar, o Amazon Data Lifecycle Manager enviará uma métrica SnapshotsCreateFailed.

SnapshotsCreateCompleted

O número snapshots criados por uma política de snapshot. Inclui novas tentativas bem-sucedidas em até 60 minutos do horário agendado.

SnapshotsCreateFailed

O número snapshots que uma política de snapshot não conseguiu criar. Inclui novas tentativas malsucedidas em até 60 minutos do horário agendado.

SnapshotsSharedCompleted

O número de de snapshots compartilhados entre contas por uma política de snapshot.

SnapshotsDeleteCompleted

O número de snapshots excluídos por um snapshot ou por uma política de AMI baseada no EBS. Essa métrica se aplica apenas aos snapshots criados pela política. Não se aplica a cópias de snapshots entre regiões criadas pela política.

Essa métrica inclui snapshots que são excluídos quando uma política de AMI baseada no EBS cancela o registro de AMIs.

SnapshotsDeleteFailed

O número de snapshots que o snapshot ou a política de AMI baseada no EBS não conseguiu excluir. Essa métrica se aplica apenas aos snapshots criados pela política. Não se aplica a cópias de snapshots entre regiões criadas pela política.

Essa métrica inclui snapshots que são excluídos quando uma política de AMI baseada no EBS cancela o registro de AMIs.

SnapshotsCopiedRegionStarted

O número de ações de cópia de snapshots entre regiões iniciadas por uma política de snapshot.

SnapshotsCopiedRegionCompleted

O número de ações de cópias de snapshots entre regiões criadas por uma política de snapshot. Inclui novas tentativas bem-sucedidas em até 24 horas do horário agendado.

SnapshotsCopiedRegionFailed

O número de cópias de snapshots entre regiões que não foi possível criar por meio de uma política de snapshot. Inclui tentativas malsucedidas num prazo de 24 horas a partir do horário agendado.

SnapshotsCopiedRegionDeleteCompleted

O número de cópias de snapshots entre regiões excluídas, conforme designado pela regra de retenção, por uma política de snapshot.

SnapshotsCopiedRegionDeleteFailed

O número de cópias de snapshots entre regiões que não foi possível excluir, conforme designado pela regra de retenção, por meio de uma política de snapshot.

snapshotsArchiveDeletionFailed

O número de snapshots arquivados que o não puderam ser excluídos do nível de arquivamento por uma política de snapshot.

snapshotsArchiveScheduled

O número de snapshots que foram programados para serem arquivados por uma política de snapshot.

snapshotsArchiveCompleted

O número de snapshots que foram arquivados com sucesso por uma política de snapshot.

snapshotsArchiveFailed

O número snapshots que não puderam ser criados por uma política de snapshot.

snapshotsArchiveDeletionCompleted

O número de snapshots arquivados que foram excluídos com sucesso do nível de arquivamento por uma política de snapshot.

PreScriptStarted

O número de instâncias em que um script prévio foi iniciado com sucesso.

Se novas tentativas de script estiverem habilitadas, essa métrica poderá ser emitida várias vezes por execução de política.

PreScriptCompleted

O número de instâncias em que um script prévio foi concluído com sucesso. A métrica é emitida mesmo que o script prévio seja concluído fora do período limite especificado.

Se novas tentativas de script estiverem habilitadas, essa métrica poderá ser emitida várias vezes por execução de política.

PreScriptFailed

O número de instâncias em que um script prévio não foi concluído com sucesso. A métrica é emitida mesmo que o script prévio seja concluído fora do período limite especificado.

Se novas tentativas de script estiverem habilitadas, essa métrica poderá ser emitida várias vezes por execução de política.

PostScriptStarted

O número de instâncias em que um script posterior foi iniciado com sucesso.

Se novas tentativas de script estiverem habilitadas, essa métrica poderá ser emitida várias vezes por execução de política.

PostScriptCompleted

O número de instâncias em que um script posterior foi concluído com sucesso. A métrica é emitida mesmo que o script posterior seja concluído fora do período limite especificado.

Se novas tentativas de script estiverem habilitadas, essa métrica poderá ser emitida várias vezes por execução de política.

PostScriptFailed

O número de instâncias em que um script posterior não foi concluído com sucesso. A métrica é emitida mesmo que o script posterior seja concluído fora do período limite especificado.

Se novas tentativas de script estiverem habilitadas, essa métrica poderá ser emitida várias vezes por execução de política.

VSSBackupStarted

O número de instâncias em que um script do VSS foi iniciado com sucesso.

Se novas tentativas de script estiverem habilitadas, essa métrica poderá ser emitida várias vezes por execução de política.

VSSBackupCompleted

O número de instâncias em que um backup do VSS foi concluído com sucesso. A métrica é emitida mesmo que o backup do VSS seja concluído fora do período limite especificado.

Se novas tentativas de script estiverem habilitadas, essa métrica poderá ser emitida várias vezes por execução de política.

VSSBackupFailed

O número de instâncias em que um backup do VSS não foi concluído com sucesso. A métrica é emitida mesmo que o backup do VSS seja concluído fora do período limite especificado.

Se novas tentativas de script estiverem habilitadas, essa métrica poderá ser emitida várias vezes por execução de política.

EBS-backed AMI policies

As métricas a seguir podem ser usadas com políticas de AMI baseadas no EBS:

Métrica Descrição

ResourcesTargeted

O número de recursos de destino das tags especificadas em um snapshot ou política de AMI baseada no EBS.

SnapshotsDeleteCompleted

O número de snapshots excluídos por um snapshot ou por uma política de AMI baseada no EBS. Essa métrica se aplica apenas aos snapshots criados pela política. Não se aplica a cópias de snapshots entre regiões criadas pela política.

Essa métrica inclui snapshots que são excluídos quando uma política de AMI baseada no EBS cancela o registro de AMIs.

SnapshotsDeleteFailed

O número de snapshots que o snapshot ou a política de AMI baseada no EBS não conseguiu excluir. Essa métrica se aplica apenas aos snapshots criados pela política. Não se aplica a cópias de snapshots entre regiões criadas pela política.

Essa métrica inclui snapshots que são excluídos quando uma política de AMI baseada no EBS cancela o registro de AMIs.

SnapshotsCopiedRegionDeleteCompleted

O número de cópias de snapshots entre regiões excluídas, conforme designado pela regra de retenção, por uma política de snapshot.

SnapshotsCopiedRegionDeleteFailed

O número de cópias de snapshots entre regiões que não foi possível excluir, conforme designado pela regra de retenção, por meio de uma política de snapshot.

ImagesCreateStarted

O número de ações CreateImage iniciadas por uma política de AMI baseada no EBS.

ImagesCreateCompleted

O número de AMIs criadas por uma política de AMI baseada no EBS.

ImagesCreateFailed

O número de AMIs que não foi possível criar por meio de uma política de AMI baseada pelo EBS.

ImagesDeregisterCompleted

O número de AMIs que tiveram o registro cancelado por uma política de AMI baseada no EBS.

ImagesDeregisterFailed

O número de AMIs cujo registro não foi possível cancelar por meio de uma política de AMI baseada no EBS.

ImagesCopiedRegionStarted

O número de ações de cópia entre regiões iniciadas por uma política de AMI baseada no EBS.

ImagesCopiedRegionCompleted

O número de cópias de AMIs entre regiões criadas por uma política de AMI baseada no EBS.

ImagesCopiedRegionFailed

O número de cópias de AMIs entre regiões que não foi possível criar por meio de uma política de AMI baseada no EBS.

ImagesCopiedRegionDeregisterCompleted

O número de cópias de AMIs entre regiões que tiveram o registro cancelado, conforme designado pela regra de retenção, por meio de uma política de AMI baseada no EBS.

ImagesCopiedRegionDeregisteredFailed

O número de cópias de AMIs entre regiões cujo registro não foi possível cancelar, conforme designado pela regra de retenção, por meio de uma política de AMI baseada no EBS.

EnableImageDeprecationCompleted

O número de AMIs que foram marcadas para defasagem por meio de uma política de AMI baseada no EBS.

EnableImageDeprecationFailed

O número de AMIs que não puderam ser marcadas para defasagem por meio de uma política de AMI baseada no EBS.

EnableCopiedImageDeprecationCompleted

O número de cópias AMI entre regiões que foram marcadas para defasagem por meio de uma política de AMI baseada no EBS.

EnableCopiedImageDeprecationFailed

O número de cópias AMI entre regiões que não puderam ser marcadas para defasagem por meio de uma política de AMI baseada no EBS.

Cross-account copy event policies

As seguintes métricas podem ser usadas com políticas de eventos de cópia entre contas:

Métrica Descrição

SnapshotsCopiedAccountStarted

O número de ações de cópia de snapshots entre contas iniciadas por uma política de eventos de cópia entre contas.

SnapshotsCopiedAccountCompleted

O número de snapshots copiados de outra conta por uma política de eventos de cópia entre contas. Inclui novas tentativas bem-sucedidas em até 24 horas do horário agendado.

SnapshotsCopiedAccountFailed

O número de snapshots que não foi possível copiar de outra conta por meio de uma política de eventos de cópia entre contas. Inclui tentativas malsucedidas num prazo de 24 horas do horário agendado.

SnapshotsCopiedAccountDeleteCompleted

O número de cópias de snapshots entre regiões excluídas, conforme designado pela regra de retenção, por uma política de evento de cópia entre contas.

SnapshotsCopiedAccountDeleteFailed

O número de cópias de snapshots entre regiões que não foi possível excluir, conforme designado pela regra de retenção, por meio de uma política de evento de cópia entre contas.

Visualizar métricas do CloudWatch para suas políticas

É possível usar o AWS Management Console ou as ferramentas da linha de comando para listar as métricas que o Amazon Data Lifecycle Manager envia ao Amazon CloudWatch.

Amazon EC2 console
Para visualizar as métricas usando o console do Amazon EC2
  1. Abra o console do Amazon EC2 em https://console.aws.amazon.com/ec2/.

  2. No painel de navegação, escolha Gerenciador de ciclo de vida.

  3. Selecione uma política na grade e, em seguida, escolha a guia Monitoramento.

CloudWatch console
Para visualizar as métricas usando o console do Amazon CloudWatch
  1. Abra o console do CloudWatch em https://console.aws.amazon.com/cloudwatch/.

  2. No painel de navegação, selecione Métricas.

  3. Selecione o namespace do EBS e selecione as métricas do Data Lifecycle Manager.

AWS CLI
Para listar todas as métricas disponíveis para o Amazon Data Lifecycle Manager

Use o comando list-metrics.

$ C:\> aws cloudwatch list-metrics \ --namespace AWS/EBS
Para listar todas as métricas para uma política específica

Use o comando list-metrics e especifique a dimensão DLMPolicyId.

$ C:\> aws cloudwatch list-metrics \ --namespace AWS/EBS \ --dimensions Name=DLMPolicyId,Value=policy-abcdef01234567890
Para listar uma métrica única em todas as políticas

Use o comando list-metrics e especifique a opção --metric-name.

$ C:\> aws cloudwatch list-metrics \ --namespace AWS/EBS \ --metric-name SnapshotsCreateCompleted

Métricas de gráfico para suas políticas

Depois que criar uma política, é possível abrir o console do Amazon EC2 e ver os gráficos de monitoramento para a instância na guia Monitoramento. Cada gráfico se baseia em uma das métricas disponíveis do Amazon EC2.

As métricas de gráficos a seguir estão disponíveis:

  • Recursos direcionados (com base em ResourcesTargeted)

  • Criação de snapshots iniciada (com base em SnapshotsCreateStarted)

  • Criação de snapshots concluída (com base em SnapshotsCreateCompleted)

  • Falha na criação de snapshots (com base em SnapshotsCreateFailed)

  • Compartilhamento de snapshots concluído (com base em SnapshotsSharedCompleted)

  • Exclusão de snapshot concluída (com base em SnapshotsDeleteCompleted)

  • Falha na exclusão de snapshots (com base em SnapshotsDeleteFailed)

  • Cópia de snapshots entre regiões iniciada (com base em SnapshotsCopiedRegionStarted)

  • Cópia de snapshots entre regiões concluída (com base em SnapshotsCopiedRegionCompleted)

  • Falha na cópia de snapshots entre regiões (com base em SnapshotsCopiedRegionFailed)

  • Exclusão da cópia de snapshots entre regiões concluída (com base em SnapshotsCopiedRegionDeleteCompleted)

  • Falha na exclusão da cópia de snapshots entre regiões (com base em SnapshotsCopiedRegionDeleteFailed)

  • Cópia de snapshots entre contas iniciada (com base em SnapshotsCopiedAccountStarted)

  • Cópia de snapshots entre contas concluída (com base em SnapshotsCopiedAccountCompleted)

  • Falha na cópia de snapshots entre contas (com base em SnapshotsCopiedAccountFailed)

  • Exclusão de cópia de snapshots entre contas concluída (com base em SnapshotsCopiedAccountDeleteCompleted)

  • Falha na exclusão de cópia de snapshots entre contas (com base em SnapshotsCopiedAccountDeleteFailed)

  • Criação de AMI iniciada (com base em ImagesCreateStarted)

  • Criação de AMI concluída (com base em ImagesCreateCompleted)

  • Falha na criação de AMI (com base em ImagesCreateFailed)

  • Cancelamento de registro de AMI concluído (com base em ImagesDeregisterCompleted)

  • Falha no cancelamento do registro da AMI (com base em ImagesDeregisterFailed)

  • Cópia de AMI entre regiões iniciada (com base em ImagesCopiedRegionStarted)

  • Cópia de AMI entre regiões concluída (com base em ImagesCopiedRegionCompleted)

  • Falha na cópia de AMI entre regiões (com base em ImagesCopiedRegionFailed)

  • Cancelamento de registro de cópia de AMI entre regiões concluída (com base em ImagesCopiedRegionDeregisterCompleted)

  • Falha no cancelamento de registro da cópia de AMI entre regiões (com base em ImagesCopiedRegionDeregisteredFailed)

  • AMI para habilitar defasagem concluído (com base em EnableImageDeprecationCompleted)

  • Falha na AMI para habilitar defasagem (com base em EnableImageDeprecationFailed)

  • Cópia da AMI para habilitar defasagem entre regiões concluída (com base em EnableCopiedImageDeprecationCompleted)

  • Falha na cópia da AMI para habilitar defasagem entre regiões (com base em EnableCopiedImageDeprecationFailed)

Criar um alarme do CloudWatch para uma política

É possível criar um alarme do CloudWatch que monitore métricas do CloudWatch para as suas políticas. O CloudWatch lhe enviará automaticamente uma notificação quando a métrica atingir um limite que você especificou. É possível criar um alarme do CloudWatch usando o console do CloudWatch

Para obter informações sobre como criar alarmes usando o console do CloudWatch, consulte o Manual do usuário do Amazon CloudWatch.

Exemplo de casos de uso

Veja a seguir exemplos de casos de uso:

Exemplo 1: métrica ResourcesTargeted

É possível usar a métrica ResourcesTargeted para monitorar o número total de recursos de destino de uma política específica toda vez que ela é executada. Isso permite acionar um alarme quando o número de recursos de destino estiver abaixo ou acima do limite esperado.

Por exemplo, se você espera que sua política diária crie backups de não mais do que 50 volumes, é possível criar um alarme que envia uma notificação por e-mail quando a sum de ResourcesTargeted for maior que 50 pelo período de 1 hora. Dessa forma, é possível garantir que nenhum snapshot tenha sido criado inesperadamente de volumes que foram etiquetados de maneira incorreta.

É possível usar o seguinte comando para criar este alarme:

$ C:\> aws cloudwatch put-metric-alarm \ --alarm-name resource-targeted-monitor \ --alarm-description "Alarm when policy targets more than 50 resources" \ --metric-name ResourcesTargeted \ --namespace AWS/EBS \ --statistic Sum \ --period 3600 \ --threshold 50 \ --comparison-operator GreaterThanThreshold \ --dimensions "Name=DLMPolicyId,Value=policy_id" \ --evaluation-periods 1 \ --alarm-actions sns_topic_arn

Exemplo 2: métrica SnapshotDeleteFailed

É possível usar a métrica SnapshotDeleteFailed para monitorar falhas na exclusão de snapshots, conforme a regra de retenção de snapshots da política.

Por exemplo, se você tiver criado uma política que deve excluir snapshots automaticamente a cada 12 horas, será possível criar um alarme que notifique sua equipe de engenharia quando a sum de SnapshotDeletionFailed for maior que 0 pelo período de 1 hora. Isso pode ajudar a averiguar a retenção incorreta de snapshots e a garantir que os custos de armazenamento não aumentem por causa de snapshots desnecessários.

É possível usar o seguinte comando para criar este alarme:

$ C:\> aws cloudwatch put-metric-alarm \ --alarm-name snapshot-deletion-failed-monitor \ --alarm-description "Alarm when snapshot deletions fail" \ --metric-name SnapshotsDeleteFailed \ --namespace AWS/EBS \ --statistic Sum \ --period 3600 \ --threshold 0 \ --comparison-operator GreaterThanThreshold \ --dimensions "Name=DLMPolicyId,Value=policy_id" \ --evaluation-periods 1 \ --alarm-actions sns_topic_arn

Exemplo 3: métrica SnapshotsCopiedRegionFailed

Use a métrica SnapshotsCopiedRegionFailed para identificar quando suas políticas apresentam falha ao copiar snapshots para outras regiões.

Por exemplo, se sua política copia snapshots entre regiões diariamente, é possível criar um alarme que envia um SMS para sua equipe de engenharia quando a sum de SnapshotCrossRegionCopyFailed for maior que 0 pelo período de 1 hora. Isso pode ser útil para verificar se a política copiou corretamente os snapshots subsequentes na linhagem.

É possível usar o seguinte comando para criar este alarme:

$ C:\> aws cloudwatch put-metric-alarm \ --alarm-name snapshot-copy-region-failed-monitor \ --alarm-description "Alarm when snapshot copy fails" \ --metric-name SnapshotsCopiedRegionFailed \ --namespace AWS/EBS \ --statistic Sum \ --period 3600 \ --threshold 0 \ --comparison-operator GreaterThanThreshold \ --dimensions "Name=DLMPolicyId,Value=policy_id" \ --evaluation-periods 1 \ --alarm-actions sns_topic_arn

Gerenciamento de políticas que relatam ações com falha

Para obter mais informações sobre o que fazer quando uma de suas políticas relatar um valor inesperado diferente de zero para uma métrica de ação com falha, consulte a seção O que devo fazer se o Amazon Data Lifecycle Manager relatar ações com falha nas métricas do CloudWatch? AWS .