Projetando um data lake para crescimento e escalabilidade no Nuvem AWS - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Projetando um data lake para crescimento e escalabilidade no Nuvem AWS

Wei Shao, Amazon Web Services ()AWS

Outubro de 2021 (histórico do documento)

Cada vez mais, as organizações estão projetando e construindo lagos de dados na nuvem da Amazon Web Services (AWS) como parte de sua estratégia de modernização de dados. Os data lakes podem ser repositórios que armazenam seus dados estruturados e não estruturados em qualquer escala e os disponibilizam para uma ampla variedade de usuários internos e externos.

No entanto, pode levar muito tempo e esforço para ingerir dados em lagos de dados que atendam aos seus crescentes casos de uso comercial. Para ajudar a reduzir custos e maximizar o valor gerado pelos dados, muitas organizações planejam uma única ingestão de dados em seu data lake e, em seguida, consomem esses dados várias vezes. Projetar uma arquitetura de data lake que escale com a produção, o compartilhamento e o consumo de dados é fundamental para agregar valor às partes interessadas da empresa quando seu data lake cresce.

Uma arquitetura escalável de data lake fornece à sua organização uma base sólida para obter valor do seu data lake e, ao mesmo tempo, trazer mais dados para ele. Ao obter insights de dados continuamente sem ser desacelerado ou interrompido por causa de restrições de escalabilidade, um data lake escalável também ajuda sua organização a permanecer competitiva.

Normalmente, um data lake tem produtores e consumidores de dados. Os produtores de dados criam ativos de dados coletando, processando e armazenando dados de seu domínio de dados. Esses ativos de dados coletivos formam o conteúdo do seu data lake. Os produtores de dados podem optar por compartilhar seletivamente seus ativos de dados com os consumidores de dados do data lake.

Os consumidores de dados precisam dos dados dos produtores de dados para atender seus casos de uso comercial e também podem ocasionalmente combinar esses dados com seus próprios dados. Produtores e consumidores de dados normalmente, mas nem sempre, fazem parte da sua organização. É importante ressaltar que eles podem ser produtores ou consumidores de dados ao mesmo tempo.

Uma arquitetura escalável de data lake ajuda você a alcançar os seguintes resultados:

  • Integre produtores de dados em grande escala sem exigir que eles mantenham todo o processo de compartilhamento de dados. Isso ajuda os produtores de dados a incorporar seus dados no data lake e a se concentrarem na coleta, processamento e armazenamento de dados de seu domínio de dados.

  • Permita que os consumidores de dados acessem dados de vários produtores de dados sem aumentar seus custos gerais e a sobrecarga de gerenciamento.

Este guia descreve os desafios comuns de escalabilidade que podem ocorrer quando as organizações expandem seu data lake, fornece uma arquitetura de referência de data lake e descreve abordagens para integrar e conceder acesso a produtores e consumidores de dados. A arquitetura de referência do data lake neste guia aproveita os diferentes recursos e capacidades fornecidos pelo AWS Lake Formation. O guia é destinado a equipes responsáveis por projetar lagos de dados no Nuvem AWS, incluindo arquitetos de dados corporativos, arquitetos de plataformas de dados, designers ou líderes de domínios de dados.

Resultados de negócios desejados

Você deve esperar os três resultados a seguir depois de criar um data lake para crescimento e escalabilidade no Nuvem AWS:

  • Reduza as despesas gerais de compartilhamento e consumo de dados em várias linhas de negócios em sua organização.

  • Uma abordagem segura e consistente que ajuda sua organização a incluir produtores de dados externos e compartilhar dados com eles em seu data lake.

  • Obtenha insights de dados continuamente sem ser desacelerado ou interrompido por causa de restrições de escalabilidade.