Catálogo centralizado - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Catálogo centralizado

O diagrama a seguir mostra como o catálogo centralizado conecta produtores e consumidores de dados no data lake.

O catálogo centralizado conecta produtores e consumidores de dados no data lake.

O catálogo centralizado armazena e gerencia o catálogo de dados compartilhado para as contas dos produtores de dados. O catálogo centralizado também hospeda os metadados técnicos dos dados compartilhados (por exemplo, nome e esquema da tabela) e é o local onde os consumidores de dados acessam os dados.

Os consumidores de dados podem acessar dados de vários produtores de dados no catálogo centralizado e, em seguida, combinar esses dados com seus próprios dados para processamento posterior. O uso de um catálogo centralizado elimina a necessidade de os consumidores de dados se conectarem diretamente com diferentes produtores de dados e reduz a sobrecarga operacional.

Como o catálogo centralizado tem visibilidade do compartilhamento e do consumo de dados pelos produtores e consumidores de dados, ele pode ser o local ideal para aplicar suas funções centralizadas de governança de dados (por exemplo, auditoria de acesso).

As seções a seguir descrevem como o catálogo centralizado usa AWS Lake Formation e. AWS Glue

AWS Lake Formation

AWS Lake Formationajuda a criar bancos de AWS Glue dados em um catálogo de dados que apontam para os locais de vários produtores de dados em seu data lake. Uma função AWS Identity and Access Management (IAM) é criada para Lake Formation no catálogo centralizado. Ao usar o Lake Formation, o catálogo centralizado pode compartilhar seletivamente recursos de dados (por exemplo, banco de dados, tabelas ou colunas) com consumidores de dados. Os recursos gerenciados do Lake Formation são compartilhados com os consumidores de dados usando um dos dois métodos a seguir:

  • Método de recurso nomeado — Esse método compartilha recursos gerenciados entre contas. Os nomes de bancos de dados, tabelas ou colunas devem ser especificados e um recurso pode ser compartilhado com uma organização, unidade organizacional (OU) ou Conta da AWS. Para reduzir a sobrecarga de compartilhamento e gerenciamento, recomendamos que você compartilhe recursos em níveis mais altos sempre que possível (por exemplo, em uma organização ou OU em vez de uma Conta da AWS). No entanto, você deve garantir que essa abordagem atenda aos requisitos de controle de segurança de dados da sua organização.

    • Observação: esse método funciona bem para consumidores de dados com um tipo de aplicativo, em que AWS os serviços consomem dados do produtor de dados. O requisito de acesso aos dados desse tipo de consumidor de dados é orientado por aplicativos, prescritivo e relativamente estático.

  • Método de controle de acesso baseado em tags (LF-TBAC) do Lake Formation — O LF-TBAC é particularmente útil para consumidores de dados com um tipo de servidor de dados. No entanto, os recursos marcados com a tag Lake Formation atualmente só podem ser compartilhados no Conta da AWS nível e não no nível da organização ou da UO.

AWS Glue

Você deve criar bancos de dados AWS Glue para cada produtor de dados em seu catálogo centralizado. Como o catálogo centralizado costuma AWS Glue hospedar bancos de dados de todos os produtores de dados, você deve garantir que o nome do banco de dados seja exclusivo em todos os produtores de dados e que reflita o produtor de dados e seu tipo de dados. Por exemplo, você pode usar a seguinte estrutura de nomenclatura do banco de dados: <Data_Producer>–<Environment>–<Data_Group>

  • <Data_Producer>— O nome do produtor de dados.

  • <Environment>— O ambiente de data lake, como dev para um ambiente de desenvolvimento, sit para um ambiente de teste de integração de sistemas ou prod para um ambiente de produção.

  • <Data_Group>— O nome do grupo de dados usado para separar os dados de um produtor de dados em grupos lógicos. Você pode usar o nome, ID ou abreviatura do sistema de origem como nome. Uma descrição do banco de dados também ajuda a descrever o conteúdo e a finalidade do banco de dados.

Você pode usar um AWS Glue rastreador nos dados do produtor de dados para manter seu esquema no banco de dados do catálogo centralizado. Se os dados forem criados regularmente na mesma frequência por um produtor de dados, você poderá usar um único AWS Glue rastreador. Em todos os outros casos, você deve usar vários AWS Glue rastreadores para acomodar diferentes frequências de rastreamento. Dependendo do seu caso de uso comercial, o rastreador pode ser programado para uma frequência predefinida ou iniciado por eventos.

Você também pode manter o esquema da tabela AWS Glue chamando a AWS Glue API para criar ou atualizar o esquema. Embora isso possa oferecer flexibilidade, é necessário um esforço adicional para o desenvolvimento e a manutenção do código. Certifique-se de avaliar o caso de uso e o valor comercial e, em seguida, escolha a opção que atenda às suas necessidades e tenha a menor sobrecarga.