Diferenciar visualizações do Catálogo de Dados de outros tipos de visualização O que é uma visualização de programador?Um framework para visualizações de vários dialetos Integrar a permissões do Lake Formation Casos de uso Serviços de AWS análise compatíveis para visualizações Recursos adicionais

AWS Glue Data Catalog Vistas do edifício

No AWS Glue Data Catalog, uma exibição é uma tabela virtual na qual o conteúdo é definido por uma consulta SQL que faz referência a uma ou mais tabelas. Você pode criar uma visualização do catálogo de dados que faça referência a até 10 tabelas usando editores SQL para Amazon Athena, Amazon Redshift ou Apache Spark usando o EMR Serverless ou a versão 5.0. AWS Glue As tabelas de referência subjacentes de uma exibição podem pertencer ao mesmo banco de dados ou a bancos de dados diferentes dentro Conta da AWS do mesmo catálogo de dados.

Você pode referenciar AWS Glue tabelas e tabelas padrão em formatos de tabela aberta (OTF), como Apache Hudi, Linux Foundation Delta Lake e Apache Iceberg, com dados subjacentes armazenados em locais do Amazon S3 registrados com. AWS Lake Formation Além disso, você pode criar visualizações de tabelas federadas em unidades de compartilhamento de dados do Amazon Redshift que são compartilhadas com o Lake Formation.

Diferenciar visualizações do Catálogo de Dados de outros tipos de visualização

As visualizações do Catálogo de Dados diferem das visualizações do Apache Hive, do Apache Spark e do Amazon Athena. A visualização do Catálogo de Dados é um recurso nativo do AWS Glue Data Catalog, e é uma exibição criada pelo definidor de vários dialetos. Você pode criar uma visualização do Catálogo de Dados usando um dos serviços de analytics compatíveis, como o Athena ou o Amazon Redshift Spectrum, e acessar a mesma visualização usando outros serviços de analytics compatíveis. Entretanto, as visualizações do Apache Hive, do Apache Spark e do Athena são criadas de forma independente em cada serviço de analytics, como o Athena e o Amazon Redshift, e são visíveis e acessíveis somente dentro desse serviço.

O que é uma visualização de programador?

Uma visualização de programador é uma visualização SQL que opera com base nas permissões da entidade principal que a criou. O perfil do programador tem as permissões necessárias para acessar as tabelas referidas e executa a instrução SQL que programa a visualização. O definidor cria a visualização e a compartilha com outros usuários por meio AWS Lake Formation do controle de acesso refinado.

Quando um usuário consulta a visualização do programador, o mecanismo de consulta usa as permissões do perfil do programador para acessar as tabelas de referência subjacentes. Essa abordagem permite que os usuários interajam com a visualização sem precisar de acesso direto às tabelas de origem, aumentando a segurança e simplificando o gerenciamento do acesso aos dados.

Para configurar uma visualização do definidor, o definidor deve ser uma função do IAM na mesma AWS conta que hospeda a visualização em seu catálogo de dados. Para obter mais informações sobre as permissões necessárias para o perfil do programador, consulte Pré-requisitos para criar visualizações.

Um framework para visualizações de vários dialetos

O Catálogo de Dados aceita a criação de visualizações usando vários dialetos da linguagem de consulta estruturada (SQL). SQL é uma linguagem usada para armazenar e processar informações em um banco de dados relacional e cada mecanismo AWS analítico usa sua própria variação de SQL ou dialeto SQL.

Você cria uma visualização do Catálogo de Dados em um dialeto SQL usando um dos mecanismos de consulta de analytics compatíveis. Posteriormente, você pode atualizar a visualização usando a instrução ALTER VIEW em um dialeto SQL diferente em qualquer outro mecanismo de analytics compatível. No entanto, cada dialeto deve fazer referência ao mesmo conjunto de tabelas, colunas e tipos de dados.

Você pode acessar os vários dialetos disponíveis para a visualização usando a GetTable API AWS CLI e AWS o console. Assim, a visualização do Catálogo de Dados fica visível e disponível para consultas em diferentes mecanismos de analytics compatíveis.

Ao definir um esquema de visualização comum e um objeto de metadados que você pode consultar em vários mecanismos, as visualizações do catálogo de dados permitem usar visualizações uniformes em todo o data lake.

Para obter mais detalhes sobre como o esquema é resolvido para cada dialeto, consulte o link para a referência da API. Para obter mais detalhes sobre as regras de correspondência para diferentes tipos, consulte o link para a seção relevante no documento da API.

Integrar a permissões do Lake Formation

Você pode usar AWS Lake Formation para centralizar o gerenciamento de permissões nas AWS Glue Data Catalog visualizações dos usuários. Você pode conceder permissões refinadas nas visualizações do Catálogo de Dados usando o método de recurso nomeado ou tags LF e compartilhá-las entre AWS organizações e unidades Contas da AWS organizacionais. Também é possível compartilhar e acessar visualizações do Catálogo de Dados entre Regiões da AWS usando links de recurso. Isso permite que os usuários forneçam acesso aos dados sem duplicar a fonte de dados ou compartilhar as tabelas subjacentes.

A declaração CREATE VIEW DDL de uma visualização do catálogo de dados pode referenciar AWS Glue as tabelas e tabelas padrão em formatos de tabela aberta (OTF), como Hudi, Delta Lake e Iceberg, com dados subjacentes armazenados em locais do Amazon S3 registrados no Lake Formation, bem como as tabelas federadas do compartilhamento de dados do Amazon Redshift que são compartilhadas com o Lake Formation. As tabelas podem ter qualquer formato de arquivo, desde que o mecanismo usado para consultar a visualização seja compatível com esse formato. Você também pode fazer referência a funções integradas do mecanismo no qual elas são executadas, mas outros recursos específicos do mecanismo podem não ser permitidos. Para obter mais detalhes, consulte Considerações e limitações das visualizações do catálogo de dados.

Casos de uso

Os casos de uso importantes das visualizações do Catálogo de Dados são apresentados abaixo:

Criar e gerenciar permissões em um único esquema de visualização. Isso ajuda a evitar o risco de permissões inconsistentes em visualizações duplicadas criadas em vários mecanismos.
Conceda permissões aos usuários em uma visualização que faz referência a várias tabelas sem conceder permissões diretamente nas tabelas de referência subjacentes.
Obtenha a filtragem no nível de linha em tabelas que usam tags do LF (em que as tags do LF se disseminam em cascata somente até o nível da coluna) aplicando tags do LF nas visualizações e concedendo permissões baseadas em tags do LF aos usuários.

Serviços de AWS análise compatíveis para visualizações

Os seguintes serviços de AWS análise oferecem suporte à criação de visualizações do Catálogo de Dados:

Amazon Redshift
Amazon Athena versão 3
Apache Spark no EMR Sem Servidor
Apache Spark na versão 5.0 AWS Glue

Recursos adicionais

É possível saber mais sobre o Catálogo de Dados neste guia do usuário, bem como nos seguintes recursos:

O vídeo a seguir demonstra como criar visualizações e consultá-las no Athena e no Amazon Redshift.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Compartilhamento de tabelas e bancos de dados do catálogo de dados entre contas

Pré-requisitos