Criar visualizações do AWS Glue Data Catalog
No AWS Glue Data Catalog, visualização é uma tabela virtual na qual o conteúdo é definido por uma consulta SQL que faz referência a uma ou mais tabelas. É possível criar uma visualização do Catálogo de Dados que faça referência a até dez tabelas usando editores SQL para o Amazon Athena ou o Amazon Redshift. As tabelas de referência subjacentes de uma visualização podem pertencer ao mesmo banco de dados ou a bancos de dados diferentes no Catálogo de Dados da mesma Conta da AWS.
Você pode fazer referência a tabelas padrão do AWS Glue e tabelas em formatos de tabela aberta (OTF), como Apache Hudi
Diferenciar visualizações do Catálogo de Dados de outros tipos de visualização
As visualizações do Catálogo de Dados diferem das visualizações do Apache Hive, do Apache Spark e do Amazon Athena. A visualização do Catálogo de Dados é um recurso nativo do AWS Glue Data Catalog e é uma visualização de vários dialetos criada pelo programador. Você pode criar uma visualização do Catálogo de Dados usando um dos serviços de analytics compatíveis, como o Athena ou o Amazon Redshift Spectrum, e acessar a mesma visualização usando outros serviços de analytics compatíveis. Entretanto, as visualizações do Apache Hive, do Apache Spark e do Athena são criadas de forma independente em cada serviço de analytics, como o Athena e o Amazon Redshift, e são visíveis e acessíveis somente dentro desse serviço.
O que é uma visualização de programador?
Uma visualização de programador é uma visualização SQL que opera com base nas permissões da entidade principal que a criou. O perfil do programador tem as permissões necessárias para acessar as tabelas referidas e executa a instrução SQL que programa a visualização. O programador cria a visualização e a compartilha com outros usuários por meio do controle de acesso refinado do AWS Lake Formation.
Quando um usuário consulta a visualização do programador, o mecanismo de consulta usa as permissões do perfil do programador para acessar as tabelas de referência subjacentes. Essa abordagem permite que os usuários interajam com a visualização sem precisar de acesso direto às tabelas de origem, aumentando a segurança e simplificando o gerenciamento do acesso aos dados.
Para configurar uma visualização de programador, o programador deve ter um perfil do IAM na mesma conta da AWS que hospeda a visualização no respectivo Catálogo de Dados. Para obter mais informações sobre as permissões necessárias para o perfil do programador, consulte Pré-requisitos para criar visualizações.
Um framework para visualizações de vários dialetos
O Catálogo de Dados aceita a criação de visualizações usando vários dialetos da linguagem de consulta estruturada (SQL). SQL é uma linguagem usada para armazenar e processar informações em um banco de dados relacional, e cada mecanismo analítico da AWS usa sua própria variação de SQL ou dialeto SQL.
Você cria uma visualização do Catálogo de Dados em um dialeto SQL usando um dos mecanismos de consulta de analytics compatíveis. Posteriormente, você pode atualizar a visualização usando a instrução ALTER VIEW
em um dialeto SQL diferente em qualquer outro mecanismo de analytics compatível. No entanto, cada dialeto deve fazer referência ao mesmo conjunto de tabelas, colunas e tipos de dados.
Você pode acessar os vários dialetos disponíveis para a visualização usando a API GetTable
, a AWS CLI e o Console da AWS. Assim, a visualização do Catálogo de Dados fica visível e disponível para consultas em diferentes mecanismos de analytics compatíveis.
Ao definir um esquema de visualização comum e um objeto de metadados que você pode consultar em vários mecanismos, as visualizações do catálogo de dados permitem usar visualizações uniformes em todo o data lake.
Para obter mais detalhes sobre como o esquema é resolvido para cada dialeto, consulte o link para a referência da API. Para obter mais detalhes sobre as regras de correspondência para diferentes tipos, consulte o link para a seção relevante no documento da API.
Integrar a permissões do Lake Formation
Você pode usar o AWS Lake Formation para centralizar o gerenciamento de permissões nas visualizações do AWS Glue Data Catalog dos usuários. É possível conceder permissões refinadas a visualizações do Catálogo de Dados por meio do método de recurso nomeado ou usando tags do LF e compartilhá-las entre Contas da AWS, organizações da AWS e unidades organizacionais. Também é possível compartilhar e acessar visualizações do Catálogo de Dados entre Regiões da AWS usando links de recurso. Isso permite que os usuários forneçam acesso aos dados sem duplicar a fonte de dados ou compartilhar as tabelas subjacentes.
A instrução DDL CREATE VIEW
de uma visualização do Catálogo de Dados pode fazer referência às tabelas padrão do AWS Glue e a tabelas em formatos de tabela aberta (OTF), como Hudi, Delta Lake e Iceberg, com dados subjacentes armazenados em locais do Amazon S3 registrados no Lake Formation, bem como às tabelas federadas da unidade de compartilhamento de dados do Amazon Redshift que são compartilhadas com o Lake Formation. As tabelas podem ter qualquer formato de arquivo, desde que o mecanismo usado para consultar a visualização seja compatível com esse formato. Você também pode fazer referência a funções integradas do mecanismo no qual elas são executadas, mas outros recursos específicos do mecanismo podem não ser permitidos. Para obter mais detalhes, consulte Considerações e limitações das visualizações do catálogo de dados.
Casos de uso
Os casos de uso importantes das visualizações do Catálogo de Dados são apresentados abaixo:
Criar e gerenciar permissões em um único esquema de visualização. Isso ajuda a evitar o risco de permissões inconsistentes em visualizações duplicadas criadas em vários mecanismos.
Conceda permissões aos usuários em uma visualização que faz referência a várias tabelas sem conceder permissões diretamente nas tabelas de referência subjacentes.
Obtenha a filtragem no nível de linha em tabelas que usam tags do LF (em que as tags do LF se disseminam em cascata somente até o nível da coluna) aplicando tags do LF nas visualizações e concedendo permissões baseadas em tags do LF aos usuários.
Serviços de analytics da AWS compatíveis para criar visualizações
Os seguintes serviços de analytics da AWS permitem a criação de visualizações do Catálogo de Dados:
Amazon Redshift
Amazon Athena versão 3
Recursos adicionais
É possível saber mais sobre o Catálogo de Dados neste guia do usuário, bem como nos seguintes recursos:
O vídeo a seguir demonstra como criar visualizações e consultá-las no Athena e no Amazon Redshift.