Camadas de dados recomendadas - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Camadas de dados recomendadas

Se você trabalha com dados não confidenciais, como dados de informações não pessoalmente identificáveis (PII), recomendamos que você use pelo menos três camadas de dados diferentes em um data lake noNuvem AWS.

No entanto, você pode precisar de camadas adicionais, dependendo da complexidade dos dados e dos casos de uso. Por exemplo, se você trabalha com dados confidenciais (por exemplo, dados de PII), recomendamos que você use um bucket adicional do Amazon Simple Storage Service (Amazon S3) como landing zone e, em seguida, mascare os dados antes de serem movidos para a camada de dados brutos. Para obter mais informações sobre isso, consulte aManificar dados confidenciais seção deste guia.

Cada camada de dados deve ter um bucket S3 individual; a tabela a seguir descreve nossas camadas de dados recomendadas:

Nome da camada de dados Descrição Exemplo de estratégia de política de ciclo de vida
Cru

Contém os dados brutos não processados e é a camada na qual os dados são ingeridos no data lake.

Se possível, você deve manter o formato do arquivo original e ativar o controle de versão no bucket do S3.

Depois de um ano, mova os arquivos para a classe de armazenamento de acesso infrequente (IA) do Amazon S3. Depois de dois anos no Amazon S3 IA, arquive-os no Amazon S3 Glacier.
Estágio

Contém dados intermediários processados que são otimizados para consumo (por exemplo, arquivos brutos convertidos de CSV para Apache Parquet ou transformações de dados).

UmAWS Glue trabalho lê os arquivos da camada bruta e valida os dados. Em seguida, oAWS Glue trabalho armazena os dados em um arquivo no formato Apache Parquet e os metadados são armazenados em uma tabela no CatálogoAWS Glue de Dados.

Os dados podem ser excluídos após um período definido ou de acordo com os requisitos da sua organização.

Alguns derivados de dados (por exemplo, uma transformação Apache Avro de um formato JSON original) podem ser removidos do data lake após um curto período de tempo (por exemplo, após 90 dias).

Análise Contém os dados agregados para seus casos de uso específicos em um formato pronto para consumo (por exemplo, Apache Parquet). Os dados podem ser movidos para o Amazon S3 IA e depois excluídos após um período definido ou de acordo com os requisitos da sua organização.
nota

Você deve avaliar todas as estratégias de política de ciclo de vida recomendadas em relação às suas necessidades organizacionais, requisitos regulatórios, padrões de consulta e considerações de custo.