SUS04-BP05 Remover dados desnecessários ou redundantes

Remova dados desnecessários ou redundantes para minimizar os recursos de armazenamento necessários para armazenar seus conjuntos de dados.

Práticas comuns que devem ser evitadas:

Você duplica dados que podem ser facilmente obtidos ou recriados.
Você faz backup de todos os dados sem considerar sua criticidade.
Você apenas exclui dados irregularmente, em eventos operacionais ou não os exclui.
Você armazena dados de forma redundante, independentemente da durabilidade do serviço de armazenamento.
Você ativa o versionamento do Amazon S3 sem qualquer justificativa comercial.

Benefícios de implementar esta prática recomendada: a remoção de dados desnecessários reduz o tamanho de armazenamento necessário para sua workload e o impacto ambiental causado por ela.

Nível de risco exposto se esta prática recomendada não for estabelecida: Médio

Orientação para implementação

Ao remover conjuntos de dados desnecessários e redundantes, você pode reduzir o custo de armazenamento e a pegada ambiental. Essa prática também pode tornar a computação mais eficiente, pois os recursos computacionais processam apenas dados importantes em vez de dados desnecessários. Automatize a exclusão de dados desnecessários. Use tecnologias que eliminam dados duplicados em níveis de arquivo e bloco. Use recursos do serviço para replicação de dados nativos e redundância.

Etapas de implementação

Avalie conjuntos de dados públicos: avalie se você pode evitar o armazenamento de dados usando conjuntos de dados existentes e publicamente disponíveis em AWS Data Exchange e Open Data on AWS.

Elimine duplicações de dados: use mecanismos que possam eliminar duplicações de dados aos níveis do bloco e objeto. Aqui estão alguns exemplos de como eliminar duplicações dados na AWS:

Serviços de armazenamento	Mecanismo de eliminação de duplicações
Amazon S3	Use o AWS Lake Formation FindMatches para encontrar registros correspondentes em um conjunto de dados (incluindo aqueles sem identificadores) usando a nova transformada de ML do FindMatches.
Amazon FSx	Use a eliminação de duplicação de dados no Amazon FSx para Windows.
Snapshots do Amazon Elastic Block Store	Snapshots são backups incrementais, o que significa que somente os blocos no dispositivo que tiverem mudado depois do snapshot mais recente serão salvos.

Use políticas de ciclo de vida: use políticas de ciclo de vida para automatizar a exclusão de dados não utilizados. Use recursos nativos de serviços, como a vida útil do Amazon DynamoDB, a funcionalidade Ciclo de Vida do Amazon S3 ou a retenção de logs do Amazon CloudWatch, para exclusão.
Use a virtualização de dados: use os recursos de virtualização de dados na AWS para manter os dados em sua origem e evitar a duplicação de dados.
- Virtualização de dados nativos da nuvem na AWS
- Otimizar o padrão de dados usando o compartilhamento de dados do Amazon Redshift
Use backup incremental: use tecnologia de backup capaz de fazer backups incrementais.
Use a durabilidade nativa: aproveite a durabilidade do Amazon S3 e a replicação do Amazon EBS, em vez de tecnologias autogerenciadas (como uma matriz redundante de discos independentes, ou RAID), para atingir suas metas de durabilidade.
Use o registro em log de maneira eficiente: centralize o log e rastreie os dados, elimine a duplicação de entradas de log idênticas e estabeleça mecanismos para ajustar a prolixidade quando necessário.
Use o armazenamento em cache de maneira eficiente: preencha os caches com antecedência somente quando justificável.
Estabeleça o monitoramento e a automação de cache para redimensionar o cache de forma adequada.
Remova versões antigas de ativos: remova implantações e ativos desatualizados dos armazenamentos de objetos e caches de borda ao enviar novas versões da workload.

Recursos

Documentos relacionados:

Vídeos relacionados:

Casos de uso de compartilhamento de dados do Amazon Redshift

Exemplos relacionados:

Como analiso meus logs de acesso ao servidor do Amazon S3 usando o Amazon Athena?

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

SUS04-BP04 Usar elasticidade e automação para expandir o armazenamento em bloco ou o sistema de arquivos

SUS04-BP06 Usar armazenamento ou sistemas de arquivos compartilhados para acessar dados comuns