Segurança no Amazon EMR - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Segurança no Amazon EMR

Segurança e conformidade são uma responsabilidade com a qual você compartilha AWS. Esse modelo de responsabilidade compartilhada pode ajudar a aliviar sua carga operacional, pois AWS opera, gerencia e controla os componentes do sistema operacional host e da camada de virtualização até a segurança física das instalações nas quais os clusters do EMR operam. Você assume a responsabilidade, o gerenciamento e a atualização dos clusters do Amazon EMR, além de configurar o software do aplicativo e os controles de segurança AWS fornecidos. Essa diferenciação de responsabilidade é comumente chamada de segurança na nuvem versus segurança na nuvem.

  • Segurança da nuvem — AWS é responsável por proteger a infraestrutura que é Serviços da AWS executada AWS. AWS também fornece serviços que você pode usar com segurança. Auditores de terceiros testam e verificam regularmente a eficácia da nossa segurança como parte dos programas de conformidade da AWS. Para saber mais sobre os programas de conformidade que se aplicam ao Amazon EMR, consulte Serviços da AWS o escopo por programa de conformidade.

  • Segurança na nuvem — você também é responsável por realizar todas as tarefas de configuração e gerenciamento de segurança necessárias para proteger um cluster do Amazon EMR. Os clientes que implantam um cluster do Amazon EMR são responsáveis pelo gerenciamento do software aplicativo instalado nas instâncias e pela configuração dos recursos AWS fornecidos, como grupos de segurança, criptografia e controle de acesso, de acordo com seus requisitos, leis e regulamentos aplicáveis.

Esta documentação ajuda você a entender como aplicar o modelo de responsabilidade compartilhada ao usar o Amazon EMR. Os tópicos deste capítulo mostram como configurar o Amazon EMR e usar outros Serviços da AWS para atender aos seus objetivos de segurança e conformidade.

Segurança de rede e infraestrutura

Como um serviço gerenciado, o Amazon EMR é protegido pelos procedimentos AWS globais de segurança de rede descritos no whitepaper Amazon Web Services: Visão geral dos processos de segurança. AWS os serviços de proteção de rede e infraestrutura oferecem proteções refinadas nos limites do host e da rede. O Amazon EMR oferece suporte Serviços da AWS e recursos de aplicativos que atendem aos requisitos de conformidade e proteção de rede.

  • Os grupos de segurança do Amazon EC2 atuam como um firewall virtual para instâncias de cluster do Amazon EMR, limitando o tráfego de entrada e saída da rede. Para obter mais informações, consulte Controlar o tráfego de rede com grupos de segurança.

  • O bloqueio de acesso público (BPA) do Amazon EMR impede que você lance um cluster em uma sub-rede pública se o cluster tiver uma configuração de segurança que permita tráfego de entrada de endereços IP públicos em uma porta. Para obter mais informações, consulte Como usar o Amazon EMR para bloquear o acesso público.

  • O Secure Shell (SSH) ajuda a fornecer uma forma segura para os usuários se conectarem à linha de comando em instâncias de cluster. Você também pode usar o SSH para visualizar as interfaces da web que os aplicativos hospedam no nó principal de um cluster. Para obter mais informações, consulte Usar um key pair do EC2 para credenciais SSH e Conectar-se a um cluster.

Atualizações da AMI padrão do Amazon Linux para Amazon EMR

Importante

Os clusters do EMR que executam imagens de máquina da Amazon (AMIs) do Amazon Linux ou do Amazon Linux 2 usam o comportamento padrão do Amazon Linux e não baixam nem instalam automaticamente atualizações importantes e críticas do kernel que exigem reinicialização. É o mesmo comportamento de outras instâncias do Amazon EC2 que executam a AMI padrão do Amazon Linux. Se novas atualizações de software do Amazon Linux que exigem reinicialização (como atualizações do kernel, NVIDIA e CUDA) forem disponibilizadas após o lançamento de uma versão do Amazon EMR, as instâncias de cluster do Amazon EMR que executam a AMI padrão não baixarão nem instalarão essas atualizações automaticamente. Para obter atualizações do kernel, você pode personalizar sua AMI do Amazon EMR para usar a AMI do Amazon Linux mais recente.

Dependendo da postura de segurança de seu aplicativo e o período em que um cluster é executado, você pode optar por reinicializar periodicamente seu cluster para aplicar atualizações de segurança, ou criar uma ação de bootstrap para personalizar a instalação de pacotes e atualizações. Você também pode escolher testar e, em seguida, instalar determinadas atualizações de segurança nas instâncias de cluster em execução. Para ter mais informações, consulte Usar a AMI padrão do Amazon Linux para Amazon EMR. Observe que sua configuração de rede deve permitir a saída de HTTP e HTTPS para repositórios Linux no Amazon S3, caso contrário, as atualizações de segurança não serão bem-sucedidas.

AWS Identity and Access Management com o Amazon EMR

AWS Identity and Access Management (IAM) é um AWS serviço que ajuda o administrador a controlar com segurança o acesso aos AWS recursos. Os administradores do IAM controlam quem pode ser autenticado (conectado) e autorizado (ter permissões) para utilizar os recursos do Amazon EMR. As identidades do IAM incluem usuários, grupos e funções. Uma função do IAM é semelhante à de um usuário do IAM, mas não está associada a uma pessoa específica e deve ser assumida por qualquer usuário que precise de permissões. Para obter mais informações, consulte AWS Identity and Access Management para o Amazon EMR. O Amazon EMR usa várias funções do IAM para ajudar você a implementar controles de acesso para clusters do Amazon EMR. O IAM é um AWS serviço que você pode usar sem custo adicional.

  • Função do IAM para o Amazon EMR (função do EMR) — controla como o serviço Amazon EMR é capaz de acessar outros Serviços da AWS em seu nome, como provisionar instâncias do Amazon EC2 quando o cluster do Amazon EMR é lançado. Para obter mais informações, consulte Configurar funções de serviço do IAM para permissões Serviços da AWS e recursos do Amazon EMR.

  • Função do IAM para instâncias EC2 de cluster (perfil de instância EC2) — uma função que é atribuída a cada instância EC2 no cluster do Amazon EMR quando a instância é iniciada. Os processos de aplicativos executados no cluster usam essa função para interagir com outros Serviços da AWS, como o Amazon S3. Para obter mais informações, consulte Função do IAM para instâncias EC2 do cluster.

  • Função do IAM para aplicativos (função de tempo de execução) — uma função do IAM que você pode especificar ao enviar um trabalho ou uma consulta para um cluster do Amazon EMR. O trabalho ou consulta que você envia ao seu cluster do Amazon EMR usa a função de tempo de execução para acessar AWS recursos, como objetos no Amazon S3. Você pode especificar perfis de runtime com o Amazon EMR para trabalhos do Spark e do Hive. Ao usar funções de tempo de execução, você pode isolar trabalhos em execução no mesmo cluster usando diferentes funções do IAM. Para obter mais informações, consulte Usando a função do IAM como função de tempo de execução com o Amazon EMR.

As identidades da força de trabalho se referem aos usuários que criam ou operam cargas de trabalho em. AWS O Amazon EMR fornece suporte para identidades da força de trabalho com o seguinte:

  • AWS O centro de identidade do IAM (Idc) é o recomendado AWS service (Serviço da AWS) para gerenciar o acesso do usuário aos AWS recursos. É um único local onde você pode atribuir identidades à sua força de trabalho e acesso consistente a várias AWS contas e aplicativos. O Amazon EMR oferece suporte às identidades da força de trabalho por meio da propagação confiável de identidades. Com um recurso confiável de propagação de identidade, um usuário pode entrar no aplicativo e esse aplicativo pode passar a identidade do usuário Serviços da AWS para outra pessoa para autorizar o acesso a dados ou recursos. Para obter mais informações, consulte Habilitando o suporte para o centro de identidade do AWS IAM com o Amazon EMR.

    O Lightweight Directory Access Protocol (LDAP) é um protocolo de aplicativo padrão do setor, aberto e independente do fornecedor, para acessar e manter informações sobre usuários, sistemas, serviços e aplicativos na rede. O LDAP é comumente usado para autenticação de usuários em servidores de identidade corporativa, como o Active Directory (AD) e o OpenLDAP. Ao habilitar o LDAP com clusters do EMR, você permite que os usuários usem suas credenciais existentes para autenticar e acessar clusters. Para obter mais informações, consulte Habilitar o suporte para LDAP com o Amazon EMR.

    O Kerberos é um protocolo de autenticação de rede projetado para fornecer autenticação forte para aplicativos cliente/servidor usando criptografia de chave secreta. Quando você usa o Kerberos, o Amazon EMR configura o Kerberos para os aplicativos, componentes e subsistemas que ele instala no cluster para que sejam autenticados entre si. Para acessar um cluster com o Kerberos configurado, um kerberos principal deve estar presente no Kerberos Domain Controller (KDC). Para obter mais informações, consulte Como ativar o suporte para Kerberos com o Amazon EMR.

Clusters de inquilino único e multilocatário

Por padrão, um cluster é configurado para uma única locação com o perfil da Instância EC2 como a identidade do IAM. Em um cluster de inquilino único, cada trabalho tem acesso total e completo ao cluster e o acesso a todos os Serviços da AWS recursos é feito com base no perfil da instância do EC2. Em um cluster multilocatário, os inquilinos são isolados uns dos outros e não têm acesso total e completo aos clusters e às instâncias EC2 do cluster. A identidade em clusters multilocatários são as funções de tempo de execução ou as identificações da força de trabalho. Em um cluster multilocatário, você também pode ativar o suporte para controle de acesso refinado (FGAC) por meio do Apache Ranger. AWS Lake Formation Em um cluster com funções de tempo de execução ou FGAC habilitadas, o acesso ao perfil da instância EC2 também é desabilitado via iptables.

Importante

Qualquer usuário que tenha acesso a um cluster de locatário único pode instalar qualquer software no sistema operacional (SO) Linux, alterar ou remover componentes de software instalados pelo Amazon EMR e impactar as instâncias do EC2 que fazem parte do cluster. Se você quiser garantir que os usuários não possam instalar ou alterar as configurações de um cluster do Amazon EMR, recomendamos que você habilite a multilocação para o cluster. Você pode habilitar a multilocação em um cluster ativando o suporte para a função de tempo de execução, o centro de identidade AWS do IAM, o Kerberos ou o LDAP.

Proteção de dados

Com AWS, você controla seus dados usando Serviços da AWS ferramentas para determinar como os dados são protegidos e quem tem acesso a eles. Serviços como AWS Identity and Access Management (IAM) permitem que você gerencie com segurança o acesso Serviços da AWS e os recursos. AWS CloudTrail permite detecção e auditoria. O Amazon EMR facilita a criptografia de dados em repouso no Amazon S3 usando chaves gerenciadas por você AWS ou totalmente gerenciadas por você. O Amazon EMR também oferece suporte para habilitar a criptografia de dados em trânsito. Para obter mais informações, consulte criptografar dados em repouso e em trânsito.

Controle de acesso a dados

Com o controle de acesso aos dados, você pode controlar quais dados uma identidade do IAM ou uma identidade da força de trabalho pode acessar. O Amazon EMR oferece suporte aos seguintes controles de acesso:

  • Políticas baseadas em identidade do IAM — gerencie permissões para funções do IAM que você usa com o Amazon EMR. As políticas do IAM podem ser combinadas com a marcação para controlar o acesso em uma cluster-by-cluster base. Para obter mais informações, consulte AWS Identity and Access Management para o Amazon EMR.

  • AWS Lake Formationcentraliza o gerenciamento de permissões de seus dados e facilita o compartilhamento em toda a organização e externamente. Você pode usar o Lake Formation para permitir acesso refinado em nível de coluna a bancos de dados e tabelas no Glue Data Catalog. AWS Para obter mais informações, consulte Como usar AWS Lake Formation com o Amazon EMR.

  • O acesso ao Amazon S3 concede identidades de mapas e identidades de mapas em diretórios como Active Directory ou AWS Identity and Access Management (IAM) principals para conjuntos de dados no S3. Além disso, o acesso ao S3 concede ao log a identidade do usuário final e o aplicativo usado para acessar os dados do S3. AWS CloudTrail Para obter mais informações, consulte Uso de concessões de acesso do Amazon S3 com o Amazon EMR.

  • O Apache Ranger é uma estrutura para habilitar, monitorar e gerenciar a segurança abrangente de dados em toda a plataforma Hadoop. O Amazon EMR oferece suporte ao controle de acesso refinado baseado no Apache Ranger para o Apache Hive Metastore e o Amazon S3. Para obter mais informações, consulte Integrar o Apache Ranger com o Amazon EMR.