SUS04-BP05 Remover dados desnecessários ou redundantes - Pilar Sustentabilidade

SUS04-BP05 Remover dados desnecessários ou redundantes

Remova dados desnecessários ou redundantes para minimizar os recursos de armazenamento necessários para armazenar seus conjuntos de dados.

Práticas comuns que devem ser evitadas:

  • Você duplica dados que podem ser facilmente obtidos ou recriados.

  • Você faz backup de todos os dados sem considerar sua criticidade.

  • Você apenas exclui dados irregularmente, em eventos operacionais ou não os exclui.

  • Você armazena dados de forma redundante, independentemente da durabilidade do serviço de armazenamento.

  • Você ativa o versionamento do Amazon S3 sem qualquer justificativa comercial.

Benefícios de implementar esta prática recomendada: a remoção de dados desnecessários reduz o tamanho de armazenamento necessário para sua workload e o impacto ambiental causado por ela.

Nível de risco exposto se esta prática recomendada não for estabelecida: Médio

Orientação para implementação

Não armazene dados de que você não precisa. Automatize a exclusão de dados desnecessários. Use tecnologias que eliminam dados duplicados em níveis de arquivo e bloco. Aproveite a replicação de dados nativos e os recursos de redundância dos serviços.

Etapas de implementação

  • Avalie se você pode evitar o armazenamento de dados usando conjuntos de dados existentes publicamente disponíveis no AWS Data Exchange e Open Data on AWS.

  • Use mecanismos que possam duplicar dados no nível de bloco e objeto. Aqui estão alguns exemplos de como eliminar duplicações dados na AWS:

    Serviços de armazenamento Mecanismo de eliminação de duplicações

    Amazon S3

    Use o AWS Lake Formation FindMatches para encontrar registros correspondentes em um conjunto de dados (incluindo aqueles sem identificadores) usando a nova transformada de ML do FindMatches.

    Amazon FSx

    Use a eliminação de duplicação de dados no Amazon FSx para Windows.

    Snapshots do Amazon Elastic Block Store

    Snapshots são backups incrementais, o que significa que somente os blocos no dispositivo que tiverem mudado depois do snapshot mais recente serão salvos.

  • Analise o acesso aos dados para identificar dados desnecessários. Automatize as políticas de ciclo de vida. Utilize recursos de serviços nativos, como o tempo de vida útil do Amazon DynamoDB, o ciclo de vida do Amazon S3 ou a retenção de logs do Amazon CloudWatch para exclusão.

  • Use os recursos de virtualização de dados no AWS para manter os dados em sua origem e evitar a duplicação de dados.

  • Use tecnologia de backup capaz de fazer backups incrementais.

  • Aproveite a durabilidade do Amazon S3 e a replicação do Amazon EBS, em vez de tecnologias autogerenciadas (como uma matriz redundante de discos independentes (RAID)), para atingir suas metas de durabilidade.

  • Centralize o log e rastreie os dados, elimine a duplicação de entradas de log idênticas e estabeleça mecanismos para ajustar a prolixidade quando necessário.

  • Preencha os caches com antecedência somente quando justificável.

  • Estabeleça o monitoramento e a automação de cache para redimensionar o cache de forma adequada.

  • Remova implantações e ativos desatualizados dios repositórios de objetos e caches de borda ao enviar novas versões da sua workload por push.

Recursos

Documentos relacionados:

Vídeos relacionados:

Exemplos relacionados: