As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usando AWS Lake Formation com AWS Glue
Engenheiros e DevOps profissionais de dados usam AWS Glue o Extract, Transform and Load (ETL) com o Apache Spark para realizar transformações em seus conjuntos de dados no Amazon S3 e carregar os dados transformados em lagos de dados e armazéns de dados para análise, aprendizado de máquina e desenvolvimento de aplicativos. Com equipes diferentes acessando o mesmo conjunto de dados no Amazon S3, é imperativo conceder e restringir permissões com base em seus perfis.
AWS Lake Formation é construído e AWS Glue os serviços interagem das seguintes maneiras:
-
Lake Formation e AWS Glue compartilham o mesmo catálogo de dados.
-
Os seguintes atributos do console Lake Formation invocam o console AWS Glue:
-
Trabalhos — Para obter mais informações, consulte Como adicionar trabalhos no Guia do desenvolvedor do AWS Glue .
-
Crawlers – Para obter mais informações, consulte Catalogação de tabelas com um Crawler Guia do desenvolvedor do AWS Glue .
-
-
Os fluxos de trabalho gerados quando você usa um esquema do Lake Formation são fluxos de trabalho AWS Glue. Você pode visualizar e gerenciar esses fluxos de trabalho no console do Lake Formation e no console AWS Glue.
-
As transformações de machine learning são fornecidas com o Lake Formation e são baseadas em operações de API do AWS Glue. Você cria e gerencia transformações de machine learning no console AWS Glue. Para obter mais informações, consulte Transformações de machine learning no Guia do desenvolvedor do AWS Glue .
Você pode usar o controle de acesso refinado do Lake Formation para gerenciar seus recursos existentes do catálogo de dados e os locais de dados do Amazon S3.
nota
AWS Glue O ETL exige acesso total à tabela inteira enquanto busca dados da localização subjacente do Amazon S3. AWS Glue O trabalho de ETL falhará se você aplicar permissões em nível de coluna em uma tabela.
Suporte para tipos de tabelas transacionais
A aplicação das permissões do Lake Formation permite que você proteja seus dados transacionais em seus data lakes baseados no Amazon S3. A tabela abaixo lista os formatos de tabela transacional suportados AWS Glue e as permissões do Lake Formation. Lake Formation impõe essas permissões para AWS Glue operações.
Formatos de tabela compatíveis | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Formato da tabela | Descrição e operações permitidas | Permissões do Lake Formation suportadas em AWS Glue | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Apache Hudi |
Um formato de tabela aberta usado para simplificar o processamento incremental de dados e o desenvolvimento de pipelines de dados. Para exemplos, consulte Usando a estrutura Hudi em AWS Glue. |
As permissões em nível de tabela estão disponíveis para tabelas do Hudi. Para obter mais informações, consulte Limitações. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Apache Iceberg |
Um formato de tabela aberta que gerencia grandes coleções de arquivos como tabelas. Para obter exemplos, consulte Usando a estrutura Iceberg em AWS Glue. |
As permissões em nível de tabela estão disponíveis para tabelas do Iceberg. Para obter mais informações, consulte Limitações. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Linux Foundation Delta Lake |
O Delta Lake é um projeto de código aberto que ajuda a implementar arquiteturas modernas de data lake, geralmente construídas no Amazon S3 ou no Sistema de Arquivos Distribuído do Hadoop (HDFS). Para ver exemplos, consulte Usando a estrutura Delta Lake em AWS Glue. |
As permissões em nível de tabela estão disponíveis para tabelas do Delta Lake. Para obter mais informações, consulte Limitações. |
Recursos adicionais do
Publicações em blogs e repositórios
-
Escrevendo em tabelas do Apache Hudi usando conector personalizado AWS Glue
-
AWS repositório do modelo Cloudformation e amostra de código pyspark
para analisar dados de streaming usando o Apache Hudi e o AWS Glue Amazon S3.