Propagação de identidades confiáveis com ETL do AWS Glue
Com o Centro de Identidade do IAM, é possível conectar-se a provedores de identidade (IdPs) e gerenciar centralmente o acesso de usuários e grupos em todos os serviços de análise da AWS. É possível integrar provedores de identidade, como Okta, Ping e Microsoft Entra ID (antigo Azure Active Directory), ao Centro de Identidade do IAM para que os usuários da organização acessem dados usando uma experiência de login único. O Centro de Identidade do IAM também aceita a conexão de outros provedores de identidade terceiros.
Com o AWS Glue versão 5.0 ou superior, você pode propagar identidades de usuário do Centro de Identidade do IAM para sessões interativas do AWS Glue. AWS Glue As sessões interativas propagarão ainda mais a identidade fornecida para serviços downstream, como Concessão de Acesso do Amazon S3, AWS Lake Formation e Amazon Redshift, permitindo assim acesso seguro aos dados por meio da identidade do usuário nesses serviços downstream.
Visão geral
O Centro de Identidade é a abordagem recomendada para a autenticação e a autorização da força de trabalho na AWS, em organizações de qualquer tamanho e tipo. Com o Centro de Identidade, você pode criar e gerenciar identidades de usuários na AWS ou conectar sua fonte de identidade existente, incluindo Microsoft Active Directory, Okta, Ping Identity, JumpCloud, Google Workspace e Microsoft Entra ID (antigo Azure AD).
A propagação de identidade confiável é um recurso do Centro de Identidade do IAM que os administradores de serviços da AWS conectados podem usar para conceder e auditar o acesso aos dados do serviço. O acesso a esses dados é baseado em atributos do usuário, como associações de grupo. A configuração da propagação de identidade confiável requer a colaboração entre os administradores de serviços da AWS conectados e os administradores do Centro de Identidade do IAM.
Atributos e benefícios
A integração das sessões interativas do AWS Glue com a Propagação de identidade confiável do Centro de Identidade do IAM oferece os seguintes benefícios:
A capacidade de aplicar a autorização em nível de tabela e o controle de acesso refinado com identidades do Centro de Identidade em tabelas do catálogo de dados do AWS Glue gerenciadas pelo Lake Formation.
A capacidade de aplicar a autorização com identidades do Centro de Identidade em clusters do Amazon Redshift.
Permite o rastreamento ponta a ponta das ações do usuário para fins de auditoria.
A capacidade de aplicar a autorização em nível de prefixo do Amazon S3 com as identidades do Centro de Identidade em prefixos do Amazon S3 gerenciados pela Concessão de Acesso do Amazon S3.
Casos de uso
Exploração e análise interativas de dados
Os engenheiros de dados usam suas identidades corporativas para acessar e analisar diretamente dados de várias contas da AWS. Por meio do SageMaker Studio, eles iniciam sessões interativas do Spark via ETL do AWS Glue, conectando-se a várias fontes de dados, incluindo o Amazon S3 e o Catálogo de Dados do AWS Glue. À medida que os engenheiros exploram conjuntos de dados, o Spark aplica controles de acesso refinados definidos no Lake Formation com base em suas identidades, garantindo que eles só possam visualizar dados autorizados. Todas as consultas e transformações de dados são registradas com a identidade do usuário, criando uma trilha de auditoria clara. Essa abordagem simplificada permite a prototipagem rápida de novos produtos de análise enquanto mantém uma governança de dados rigorosa em todos os ambientes do cliente.
Preparação de dados e engenharia de atributos
Cientistas de dados de várias equipes de pesquisa colaboram em projetos complexos usando uma plataforma de dados unificada. Eles fazem login no SageMaker Studio com suas credenciais corporativas, acessando imediatamente um vasto data lake compartilhado que abrange várias contas da AWS. À medida que iniciam a engenharia de atributos para novos modelos de machine learning, as sessões do Spark lançadas via ETL do AWS Glue reforçam as políticas de segurança em nível de coluna e linha do Lake Formation com base em suas identidades propagadas. Os cientistas podem preparar dados de forma eficiente e criar recursos usando ferramentas familiares, enquanto as equipes de conformidade têm a garantia de que cada interação de dados será automaticamente rastreada e auditada. Esse ambiente seguro e colaborativo acelera os pipelines de pesquisa enquanto mantém os rígidos padrões de proteção de dados exigidos em setores regulamentados.
Como funciona

Um usuário faz login em aplicações voltadas para o cliente (SageMaker AI ou aplicações personalizadas) via Centro de Identidade do IAM. Essa identidade é então propagada por todo o pipeline de acesso a dados.
O usuário autenticado inicia sessões interativas do AWS AWS Glue que servem como mecanismo de computação para processamento de dados. Essas sessões mantêm o contexto da identidade do usuário em todo o fluxo de trabalho.
O AWS Lake Formation e o Catálogo de Dados do AWS Glue trabalham juntos para aplicar controles de acesso refinados. O Lake Formation aplica políticas de segurança com base na identidade propagada do usuário, enquanto a Concessão de Acesso do Amazon S3 fornece camadas de permissão adicionais, garantindo que os usuários só possam acessar os dados que estão autorizados a visualizar.
Finalmente, o sistema se conecta ao Armazenamento do Amazon S3, onde os dados reais residem. Todo o acesso é regido pelas políticas de segurança combinadas, mantendo a governança de dados e permitindo a exploração e análise interativas de dados. Essa arquitetura permite o acesso seguro e baseado em identidade a dados em vários serviços da AWS, mantendo uma experiência de usuário perfeita para cientistas e engenheiros de dados que trabalham com grandes conjuntos de dados.
Integrações
Ambiente de desenvolvimento gerenciado da AWS
As seguintes aplicações gerenciadas da AWS voltadas para o cliente oferecem suporte à propagação confiável de identidade com sessões interativas do AWS Glue:
Sagemaker Unified Studio
Para usar a propagação de identidade confiável com o Sagemaker Unified Studio:
Configure o projeto do Sagemaker Unified Studio com propagação de identidade confiável habilitada como o ambiente de desenvolvimento voltado para o cliente.
Configure o Lake Formation para permitir um controle de acesso refinado para tabelas do AWS Glue com base no usuário ou grupo no Centro de Identidade do IAM.
Configure a Concessão de acesso do Amazon S3 para permitir o acesso temporário às localizações dos dados subjacentes no Amazon S3.
Abra o espaço da IDE JupyterLab do Sagemaker Unified Studio e selecione AWS Glue como computação para execução do notebook.
Ambiente de notebook auto-hospedado e gerenciado pelo cliente
Para permitir a propagação de identidade confiável para usuários de aplicações desenvolvidas sob medida, consulte Acessar serviços da AWS de forma programática usando propagação de identidade confiável