As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Práticas recomendadas
Recomendamos que você siga as melhores práticas técnicas e de armazenamento. Essas melhores práticas podem ajudar você a aproveitar ao máximo sua arquitetura centrada em dados.
Melhores práticas de armazenamento para big data
A tabela a seguir descreve uma prática recomendada comum para armazenar arquivos para uma carga de processamento de big data no Amazon S3. A última coluna é um exemplo de uma política de ciclo de vida que você pode definir. Se o Amazon S3 Intelligent-Tiering
Nome da camada de dados | Descrição | Exemplo de estratégia de política de ciclo de vida |
Bruto | Contém dados brutos e não processados Observação: para uma fonte de dados externa, a camada de dados brutos geralmente é uma cópia 1:1 dos dados, mas na AWS os dados podem ser particionados por chaves com base na região ou data da AWS durante o processo de ingestão. | Depois de um ano, mova os arquivos para a classe de armazenamento S3 Standard-IA. Depois de dois anos no S3 Standard-IA, arquive os arquivos no Amazon Simple Storage Service Glacier (Amazon S3 Glacier). |
Estágio | Contém dados intermediários processados que são otimizados para consumo Exemplo: arquivos brutos convertidos em CSV para Apache Parquet ou transformações de dados | Você pode excluir dados após um período definido ou de acordo com os requisitos da sua organização. Você pode remover alguns derivados de dados (por exemplo, uma transformação Apache Avro de um formato JSON original) do data lake após um curto período de tempo (por exemplo, após 90 dias). |
Analytics | Contém os dados agregados para seus casos de uso específicos em um formato pronto para consumo Exemplo: Apache Parquet | Você pode mover dados para o S3 Standard-IA e, em seguida, excluí-los após um período definido ou de acordo com os requisitos da sua organização. |
O diagrama a seguir mostra um exemplo de uma estratégia de particionamento (correspondente a uma pasta/prefixo do S3) que você pode usar em todas as camadas de dados. Recomendamos que você escolha uma estratégia de particionamento com base em como seus dados são usados posteriormente. Por exemplo, se os relatórios forem criados com base em seus dados (onde as consultas mais comuns no relatório filtram os resultados com base na região e nas datas), certifique-se de incluir as regiões e as datas como partições para melhorar o desempenho e o tempo de execução da consulta.

Melhores práticas técnicas
As melhores práticas técnicas dependem dos serviços e tecnologias de processamento específicos da AWS que você usa para projetar sua arquitetura centrada em dados. No entanto, recomendamos que você tenha em mente as seguintes melhores práticas. Essas melhores práticas se aplicam aos casos de uso típicos de processamento de dados.
Área | Prática recomendada |
SQL | Reduza a quantidade de dados que devem ser consultados projetando atributos em seus dados. Em vez de analisar a tabela inteira, você pode usar a projeção de dados para digitalizar e retornar somente algumas colunas obrigatórias na tabela. Evite junções grandes, se possível, pois as junções entre várias tabelas podem afetar significativamente o desempenho devido às demandas intensivas de recursos. |
Apache Spark | Otimize aplicativos Spark Otimize o gerenciamento de memória |
Design de banco de dados | Siga as melhores práticas de arquitetura para bancos de dados |
Remoção de dados | Use a remoção de partições do lado do servidor com o. |
Escalabilidade | Entenda e implemente o dimensionamento horizontal |