As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Plugin Apache Hive para integração do Ranger com a Amazon EMR
O Apache Hive é um mecanismo de execução bastante usado dentro do ecossistema Hadoop. EMRA Amazon fornece um plug-in Apache Ranger para poder fornecer controles de acesso refinados para o Hive. O plug-in é compatível com o servidor Apache Ranger Admin de código aberto versão 2.0 e posteriores.
Recursos compatíveis
O plug-in Apache Ranger para Hive on EMR suporta todas as funcionalidades do plug-in de código aberto, que inclui controles de acesso em nível de banco de dados, tabela e coluna, filtragem de linhas e mascaramento de dados. Para ver uma tabela dos comandos do Hive e das permissões associadas do Ranger, consulte Hive commands to Ranger permission mapping
Instalação da configuração de serviço
O plug-in Apache Hive é compatível com a definição de serviço Hive existente no Apache Hive Hadoop. SQL
Se você não tiver uma instância do serviço no HadoopSQL, como mostrado acima, você pode criar uma. Clique no + ao lado do HadoopSQL.
-
Nome do serviço (se for exibido): insira o nome do serviço. O valor sugerido é
amazonemrhive
. Anote esse nome de serviço -- ele é necessário ao criar uma configuração EMR de segurança. -
Nome de exibição: insira o nome a ser exibido para o serviço. O valor sugerido é
amazonemrhive
.
As propriedades de configuração do Apache Hive são usadas para estabelecer uma conexão com seu servidor Apache Ranger Admin com um 2 HiveServer para implementar o preenchimento automático ao criar políticas. As propriedades abaixo não precisam ser precisas se você não tiver um processo persistente HiveServer 2 e puderem ser preenchidas com qualquer informação.
-
Nome de usuário: insira um nome de usuário para a JDBC conexão com uma instância de uma instância HiveServer 2.
-
Senha: insira a senha do nome de usuário acima.
-
jdbc. driver. ClassName: insira o nome da JDBC classe para a conectividade do Apache Hive. O valor padrão pode ser usado.
-
jdbc.url: insira a string de JDBC conexão a ser usada ao se conectar a 2. HiveServer
-
Nome comum para certificado: o campo CN dentro do certificado usado para se conectar ao servidor de administração com base em um plug-in cliente. Esse valor deve corresponder ao campo CN em seu TLS certificado que foi criado para o plug-in.
O botão Testar conexão testa se os valores acima podem ser usados para se conectar com êxito à instância HiveServer 2. Depois que o serviço for criado com êxito, o Service Manager deverá ficará semelhante a isto:
Considerações
Servidor de metadados Hive
O servidor de metadados Hive só pode ser acessado por mecanismos confiáveis, especificamente o Hive e emr_record_server
, para proteção contra acesso não autorizado. O servidor de metadados Hive também é acessado por todos os nós do cluster. A porta 9083 necessária fornece acesso de todos os nós ao nó principal.
Autenticação
Por padrão, o Apache Hive está configurado para se autenticar usando Kerberos conforme configurado na configuração de Segurança. EMR HiveServer2 também pode ser configurado para autenticar usuários usandoLDAP. Consulte LDAPImplementação da autenticação para o Hive em um cluster EMR Amazon multilocatário
Limitações
A seguir estão as limitações atuais do plug-in Apache Hive na Amazon EMR 5.x:
-
Não há suporte para perfis do Hive atualmente. Não há suporte para instruções Grant e Revoke.
-
O Hive não CLI é suportado. JDBC/Beeline é a única forma autorizada de conectar o Hive.
-
hive.server2.builtin.udf.blacklist
a configuração deve ser preenchida com o UDFs que você considera inseguro.