Camadas de dados recomendadas

Se você trabalha com dados não confidenciais, como dados que não contêm informações de identificação pessoal (PII), recomendamos que você use pelo menos três camadas de dados diferentes em um lago de dados no. Nuvem AWS

No entanto, você pode precisar de camadas adicionais, dependendo da complexidade e dos casos de uso dos dados. Por exemplo, se você trabalha com dados confidenciais, como dados de PII, recomendamos que você use um bucket adicional do Amazon Simple Storage Service (Amazon S3) como landing zone. Em seguida, você mascara os dados antes de serem movidos para a camada de dados brutos. Para obter mais informações sobre isso, consulte a seção Tratamento de dados confidenciais deste guia.

Cada camada de dados deve ter um bucket Amazon S3 individual. A tabela a seguir descreve as camadas de dados recomendadas.

Nome da camada de dados	Descrição	Exemplo de estratégia de política de ciclo de vida
Bruto	Contém os dados brutos e não processados. Os dados são ingeridos no data lake nessa camada. Se possível, você deve manter o formato do arquivo original e ativar o controle de versão no bucket do Amazon S3.	Depois de um ano, mova os arquivos para a classe de armazenamento de acesso infrequente (IA) do Amazon S3. Depois de dois anos no Amazon S3 IA, arquive-os nas classes de armazenamento do Amazon S3 Glacier.
Estágio	Contém dados intermediários processados que são otimizados para consumo (por exemplo, arquivos brutos convertidos de CSV para Apache Parquet ou transformações de dados). Um AWS Glue trabalho lê os arquivos da camada bruta e valida os dados. Em seguida, o AWS Glue trabalho armazena os dados em um arquivo no formato Apache Parquet, e os metadados são armazenados em uma tabela no. AWS Glue Data Catalog	Os dados podem ser excluídos após um período definido ou de acordo com os requisitos da sua organização. Alguns derivados de dados, como uma transformação Apache Avro de um formato JSON original, podem ser removidos do data lake após um curto período de tempo, como após 90 dias.
Analytics	Contém os dados agregados para seus casos de uso específicos em um formato pronto para consumo, como o Apache Parquet.	Os dados podem ser movidos para o Amazon S3 IA e depois excluídos após um período de tempo definido ou de acordo com os requisitos da sua organização.

Nome da camada de dados

Descrição

Exemplo de estratégia de política de ciclo de vida

Bruto

Contém os dados brutos e não processados. Os dados são ingeridos no data lake nessa camada.

Se possível, você deve manter o formato do arquivo original e ativar o controle de versão no bucket do Amazon S3.

Depois de um ano, mova os arquivos para a classe de armazenamento de acesso infrequente (IA) do Amazon S3. Depois de dois anos no Amazon S3 IA, arquive-os nas classes de armazenamento do Amazon S3 Glacier.

Estágio

Contém dados intermediários processados que são otimizados para consumo (por exemplo, arquivos brutos convertidos de CSV para Apache Parquet ou transformações de dados).

Um AWS Glue trabalho lê os arquivos da camada bruta e valida os dados. Em seguida, o AWS Glue trabalho armazena os dados em um arquivo no formato Apache Parquet, e os metadados são armazenados em uma tabela no. AWS Glue Data Catalog

Os dados podem ser excluídos após um período definido ou de acordo com os requisitos da sua organização.

Alguns derivados de dados, como uma transformação Apache Avro de um formato JSON original, podem ser removidos do data lake após um curto período de tempo, como após 90 dias.

Analytics

Contém os dados agregados para seus casos de uso específicos em um formato pronto para consumo, como o Apache Parquet.

Os dados podem ser movidos para o Amazon S3 IA e depois excluídos após um período de tempo definido ou de acordo com os requisitos da sua organização.

nota

Você deve avaliar todas as estratégias de políticas de ciclo de vida recomendadas em relação às suas necessidades organizacionais, requisitos normativos, padrões de consulta e considerações de custo.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Introdução

Nomeando buckets do Amazon S3