Esquemas e fluxos de trabalho no Lake Formation - AWS Lake Formation

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Esquemas e fluxos de trabalho no Lake Formation

Um fluxo de trabalho encapsula uma atividade complexa de vários trabalhos de extração, transformação e carregamento (ETL). Os fluxos de trabalho geram AWS Glue rastreadores, trabalhos e gatilhos para orquestrar o carregamento e a atualização dos dados. O Lake Formation executa e rastreia um fluxo de trabalho como uma entidade única. Você pode configurar um fluxo de trabalho para ser executado sob demanda ou de acordo com um cronograma.

Os fluxos de trabalho que você cria no Lake Formation são visíveis no console do AWS Glue como um gráfico acíclico direcionado (DAG). Cada nó do DAG é uma tarefa, um crawler ou um gatilho. Para monitorar o progresso e solucionar problemas, você pode acompanhar o status de cada nó no fluxo de trabalho.

Quando um fluxo de trabalho do Lake Formation é concluído, o usuário que executou o fluxo de trabalho recebe a permissão SELECT do Lake Formation nas tabelas do catálogo de dados que o fluxo de trabalho cria.

Você também pode criar fluxos de trabalho no AWS Glue. No entanto, como o Lake Formation permite que você crie um fluxo de trabalho a partir de um esquema, criar fluxos de trabalho é muito mais simples e automatizado no Lake Formation. Lake Formation fornece os seguintes tipos de esquemas:

  • Instantâneo do banco de dados: carrega ou recarrega dados de todas as tabelas no data lake a partir de uma fonte JDBC. Você pode excluir alguns dados da fonte com base em um padrão de exclusão.

  • Banco de dados incremental: carrega somente novos dados no data lake a partir de uma fonte JDBC, com base em marcadores previamente definidos. Você especifica as tabelas individuais no banco de dados de origem do JDBC a serem incluídas. Para cada tabela, você escolhe as colunas dos favoritos e a ordem de classificação dos favoritos para acompanhar os dados que foram carregados anteriormente. Na primeira vez que você executa um esquema de banco de dados incremental em um conjunto de tabelas, o fluxo de trabalho carrega todos os dados das tabelas e define marcadores para a próxima execução do esquema de banco de dados incremental. Portanto, você pode usar um esquema de banco de dados incremental em vez do esquema de instantâneo do banco de dados para carregar todos os dados, desde que você especifique cada tabela na fonte de dados como um parâmetro.

  • Arquivo de log — carrega dados em massa de fontes de arquivos de log AWS CloudTrail, incluindo registros do Elastic Load Balancing e registros do Application Load Balancer.

Use a tabela a seguir para ajudar a decidir se deve usar um snapshot de banco de dados ou um esquema de banco de dados incremental.

Use o instantâneo do banco de dados quando... Use o banco de dados incremental quando...
  • A evolução do esquema é flexível. (As colunas são renomeadas, as colunas anteriores são excluídas e novas colunas são adicionadas em seu lugar.)

  • É necessária uma consistência completa entre a origem e destino.

  • A evolução do esquema é incremental. (Há somente adição sucessiva de colunas.)

  • Somente novas linhas são adicionadas; as linhas anteriores não são atualizadas.

nota

Os usuários não podem editar plantas e fluxos de trabalho criados pelo Lake Formation.