Integrar o Amazon EMR ao AWS Lake Formation
AWS Lake Formation é um serviço gerenciado que ajuda a descobrir, catalogar, limpar e proteger dados em um data lake do Amazon Simple Storage Service (S3). O Lake Formation fornece acesso refinado no nível da coluna a bancos de dados e tabelas no Catálogo de Dados do AWS Glue. Para ter mais informações, consulte O que é o AWS Lake Formation?
Com o Amazon EMR 6.7.0 e versões posteriores, você pode aplicar o controle de acesso baseado no Lake Formation a trabalhos do Spark, Hive e Presto enviados aos clusters do Amazon EMR. Para se integrar ao Lake Formation, é necessário criar um cluster do EMR com um perfil de runtime. O perfil de runtime é um perfil do AWS Identity and Access Management (IAM) que você associa a trabalhos ou consultas do Amazon EMR. Então, o Amazon EMR usa esse perfil para acessar recursos da AWS. Para obter mais informações, consulte Perfis de runtime para etapas ao Amazon EMR.
Como o Amazon EMR funciona com o Lake Formation
Após integrar o Amazon EMR com o Lake Formation, você pode executar consultas nos clusters do Amazon EMR com a API Step
Veja a seguir uma visão geral de alto nível sobre como o Amazon EMR obtém acesso aos dados protegidos pelas políticas de segurança do Lake Formation.
-
O usuário envia uma consulta do Amazon EMR para obter dados no Lake Formation.
-
O Amazon EMR solicita credenciais temporárias do Lake Formation para dar acesso aos dados para o usuário.
-
O Lake Formation retorna credenciais temporárias.
-
O Amazon EMR envia a solicitação de consulta para recuperar dados do Amazon S3.
-
O Amazon EMR recebe os dados do Amazon S3, filtra-os e retorna os resultados com base nas permissões de usuário que o usuário definiu no Lake Formation.
Para obter mais informações sobre como adicionar usuários e grupos às políticas do Lake Formation, consulte Granting Data Catalog permissions.
Pré-requisitos
É necessário atender aos seguintes requisitos para integrar o Amazon EMR e o Lake Formation:
-
Ative a autorização do perfil de runtime no cluster do Amazon EMR.
-
Use o Catálogo de Dados do AWS Glue como um armazenamento de metadados.
-
Defina e gerencie as permissões no Lake Formation para acessar bancos de dados, tabelas e colunas no Catálogo de Dados do AWS Glue. Para ter mais informações, consulte O que é o AWS Lake Formation?