Integrar o Amazon EMR ao AWS Lake Formation - Amazon EMR

Integrar o Amazon EMR ao AWS Lake Formation

AWS Lake Formation é um serviço gerenciado que ajuda a descobrir, catalogar, limpar e proteger dados em um data lake do Amazon Simple Storage Service (S3). O Lake Formation fornece acesso refinado no nível da coluna a bancos de dados e tabelas no Catálogo de Dados do AWS Glue. Para ter mais informações, consulte O que é o AWS Lake Formation?

Com o Amazon EMR 6.7.0 e versões posteriores, você pode aplicar o controle de acesso baseado no Lake Formation a trabalhos do Spark, Hive e Presto enviados aos clusters do Amazon EMR. Para se integrar ao Lake Formation, é necessário criar um cluster do EMR com um perfil de runtime. O perfil de runtime é um perfil do AWS Identity and Access Management (IAM) que você associa a trabalhos ou consultas do Amazon EMR. Então, o Amazon EMR usa esse perfil para acessar recursos da AWS. Para obter mais informações, consulte Perfis de runtime para etapas ao Amazon EMR.

Como o Amazon EMR funciona com o Lake Formation

Após integrar o Amazon EMR com o Lake Formation, você pode executar consultas nos clusters do Amazon EMR com a API Step ou com o SageMaker Studio. Em seguida, o Lake Formation fornecerá acesso aos dados por meio de credenciais temporárias para o Amazon EMR. Esse processo chamado de fornecimento de credenciais. Para ter mais informações, consulte O que é o AWS Lake Formation?

Veja a seguir uma visão geral de alto nível sobre como o Amazon EMR obtém acesso aos dados protegidos pelas políticas de segurança do Lake Formation.


				Como o Amazon EMR acessa dados protegidos por meio de políticas de segurança do Lake Formation
  1. O usuário envia uma consulta do Amazon EMR para obter dados no Lake Formation.

  2. O Amazon EMR solicita credenciais temporárias do Lake Formation para dar acesso aos dados para o usuário.

  3. O Lake Formation retorna credenciais temporárias.

  4. O Amazon EMR envia a solicitação de consulta para recuperar dados do Amazon S3.

  5. O Amazon EMR recebe os dados do Amazon S3, filtra-os e retorna os resultados com base nas permissões de usuário que o usuário definiu no Lake Formation.

Para obter mais informações sobre como adicionar usuários e grupos às políticas do Lake Formation, consulte Granting Data Catalog permissions.

Pré-requisitos

É necessário atender aos seguintes requisitos para integrar o Amazon EMR e o Lake Formation:

  • Ative a autorização do perfil de runtime no cluster do Amazon EMR.

  • Use o Catálogo de Dados do AWS Glue como um armazenamento de metadados.

  • Defina e gerencie as permissões no Lake Formation para acessar bancos de dados, tabelas e colunas no Catálogo de Dados do AWS Glue. Para ter mais informações, consulte O que é o AWS Lake Formation?