Usando AWS Lake Formation com AWS Glue - AWS Lake Formation

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usando AWS Lake Formation com AWS Glue

Engenheiros e DevOps profissionais de dados usam AWS Glue o Extract, Transform and Load (ETL) com o Apache Spark para realizar transformações em seus conjuntos de dados no Amazon S3 e carregar os dados transformados em lagos de dados e armazéns de dados para análise, aprendizado de máquina e desenvolvimento de aplicativos. Com equipes diferentes acessando o mesmo conjunto de dados no Amazon S3, é imperativo conceder e restringir permissões com base em seus perfis.

AWS Lake Formation é construído e AWS Glue os serviços interagem das seguintes maneiras:

  • Lake Formation e AWS Glue compartilham o mesmo catálogo de dados.

  • Os seguintes atributos do console Lake Formation invocam o console AWS Glue:

  • Os fluxos de trabalho gerados quando você usa um esquema do Lake Formation são fluxos de trabalho AWS Glue. Você pode visualizar e gerenciar esses fluxos de trabalho no console do Lake Formation e no console AWS Glue.

  • As transformações de machine learning são fornecidas com o Lake Formation e são baseadas em operações de API do AWS Glue. Você cria e gerencia transformações de machine learning no console AWS Glue. Para obter mais informações, consulte Transformações de machine learning no Guia do desenvolvedor do AWS Glue .

Você pode usar o controle de acesso refinado do Lake Formation para gerenciar seus recursos existentes do catálogo de dados e os locais de dados do Amazon S3.

nota

AWS Glue O ETL exige acesso total à tabela inteira enquanto busca dados da localização subjacente do Amazon S3. AWS Glue O trabalho de ETL falhará se você aplicar permissões em nível de coluna em uma tabela.

Suporte para tipos de tabelas transacionais

A aplicação das permissões do Lake Formation permite que você proteja seus dados transacionais em seus data lakes baseados no Amazon S3. A tabela abaixo lista os formatos de tabela transacional suportados AWS Glue e as permissões do Lake Formation. Lake Formation impõe essas permissões para AWS Glue operações.

Formatos de tabela compatíveis
Formato da tabela Descrição e operações permitidas Permissões do Lake Formation suportadas em AWS Glue

Apache Hudi

Um formato de tabela aberta usado para simplificar o processamento incremental de dados e o desenvolvimento de pipelines de dados.

Para exemplos, consulte Usando a estrutura Hudi em AWS Glue.

As permissões em nível de tabela estão disponíveis para tabelas do Hudi.

Para obter mais informações, consulte Limitações.

Apache Iceberg

Um formato de tabela aberta que gerencia grandes coleções de arquivos como tabelas.

Para obter exemplos, consulte Usando a estrutura Iceberg em AWS Glue.

As permissões em nível de tabela estão disponíveis para tabelas do Iceberg.

Para obter mais informações, consulte Limitações.

Linux Foundation Delta Lake

O Delta Lake é um projeto de código aberto que ajuda a implementar arquiteturas modernas de data lake, geralmente construídas no Amazon S3 ou no Sistema de Arquivos Distribuído do Hadoop (HDFS).

Para ver exemplos, consulte Usando a estrutura Delta Lake em AWS Glue.

As permissões em nível de tabela estão disponíveis para tabelas do Delta Lake.

Para obter mais informações, consulte Limitações.

Recursos adicionais do