Pré-requisitos Limitações Termos Parâmetros Suporte ao tipo de dados Partições e divisões Performance Consultas de passagem Informações de licença Recursos adicionais

Conector do Amazon Athena para o Cloudera Hive

O conector do Amazon Athena para o Cloudera Hive permite que o Athena execute consultas SQL na distribuição Hadoop do Cloudera Hive. O conector transforma suas consultas SQL do Athena na sintaxe equivalente do HiveQL.

Esse conector não usa o Glue Connections para centralizar as propriedades de configuração no Glue. A configuração da conexão é feita por meio do Lambda.

Pré-requisitos

Implante o conector na sua Conta da AWS usando o console do Athena ou o AWS Serverless Application Repository. Para ter mais informações, consulte Criar uma conexão de fonte de dados ou Usar o AWS Serverless Application Repository para implantar um conector de fonte de dados.
Configura uma VPC e um grupo de segurança antes de usar esse conector. Para obter mais informações, consulte Criar uma VPC para um conector de fonte de dados ou conexão do AWS Glue.

Limitações

Não há suporte para operações de gravação de DDL.
Em uma configuração de multiplexador, o prefixo e o bucket de derramamento são compartilhados em todas as instâncias do banco de dados.
Quaisquer limites relevantes do Lambda. Para obter mais informações, consulte Cotas do Lambda no Guia do desenvolvedor do AWS Lambda.

Termos

Os termos a seguir estão relacionados ao conector Cloudera Hive.

Instância do banco de dados: qualquer instância de um banco de dados implantado on-premises, no Amazon EC2 ou no Amazon RDS.
Manipulador: um manipulador Lambda que acessa sua instância de banco de dados. Um manipulador pode ser para metadados ou para registros de dados.
Manipulador de metadados: um manipulador Lambda que recupera metadados da sua instância de banco de dados.
Manipulador de registros: um manipulador Lambda que recupera registros de dados da sua instância de banco de dados.
Manipulador composto: um manipulador Lambda que recupera tanto metadados quanto registros de dados da sua instância de banco de dados.
Propriedade ou parâmetro: uma propriedade do banco de dados usada pelos manipuladores para extrair informações do banco de dados. Você configura essas propriedades como variáveis de ambiente do Lambda.
String de conexão: uma string de texto usada para estabelecer uma conexão com uma instância de banco de dados.
Catálogo: um catálogo não AWS Glue registrado no Athena que é um prefixo obrigatório para a propriedade connection_string.
Manipulador de multiplexação: um manipulador Lambda que pode aceitar e usar várias conexões de banco de dados.

Parâmetros

Use os parâmetros nesta seção para configurar o conector do Cloudera Hive.

String de conexão

Use uma string de conexão JDBC no seguinte formato para se conectar a uma instância de banco de dados.


hive://${jdbc_connection_string}

Uso de um manipulador de multiplexação

É possível usar um multiplexador para se conectar a várias instâncias de banco de dados com uma única função do Lambda. As solicitações são encaminhadas por nome do catálogo. Use as seguintes classes no Lambda.

Manipulador	Classe
Manipulador composto	`HiveMuxCompositeHandler`
Manipulador de metadados	`HiveMuxMetadataHandler`
Manipulador de registros	`HiveMuxRecordHandler`

Parâmetros do manipulador de multiplexação

Parameter	Descrição
`$catalog_connection_string`	Obrigatório. Uma string de conexão de instância de banco de dados. Prefixe a variável de ambiente com o nome do catálogo usado no Athena. Por exemplo, se o catálogo registrado no Athena for `myhivecatalog`, então o nome da variável de ambiente será `myhivecatalog_connection_string`.
`default`	Obrigatório. A string de conexão padrão. Essa string é usada quando o catálogo for `lambda:${AWS_LAMBDA_FUNCTION_NAME}`.

As propriedades de exemplo a seguir são para uma função do Lambda MUX do Hive que ofereça suporte a duas instâncias de banco de dados: hive1 (o padrão) e hive2.

Propriedade	Valor
`default`	`hive://jdbc:hive2://hive1:10000/default;${Test/RDS/hive1}`
`hive2_catalog1_connection_string`	`hive://jdbc:hive2://hive1:10000/default;${Test/RDS/hive1}`
`hive2_catalog2_connection_string`	`hive://jdbc:hive2://hive2:10000/default;UID=sample&PWD=sample`

Fornecer credenciais da

Para fornecer um nome de usuário e uma senha para seu banco de dados na string da conexão JDBC, o conector Cloudera Hive exige um segredo do AWS Secrets Manager. Para usar o recurso de consulta federada do Athena com o AWS Secrets Manager, a VPC conectada à sua função do Lambda deve ter acesso à Internet ou um endpoint da VPC para se conectar ao Secrets Manager.

Coloque o nome de um segredo do AWS Secrets Manager na string da conexão JDBC. O conector substitui o nome secreto pelos valores de username e password do Secrets Manager.

Exemplo de string de conexão com nome secreto

A string a seguir tem o nome secreto ${Test/RDS/hive1}.


hive://jdbc:hive2://hive1:10000/default;...&${Test/RDS/hive1}&...

O conector usa o nome secreto para recuperar segredos e fornecer o nome de usuário e a senha, como no exemplo a seguir.


hive://jdbc:hive2://hive1:10000/default;...&UID=sample2&PWD=sample2&...

Atualmente, o conector Cloudera Hive reconhece as propriedades do JDBC UID e PWD.

Uso de um único manipulador de conexão

É possível usar os seguintes metadados de conexão única e manipuladores de registros para se conectar a uma única instância do Cloudera Hive.

Tipo de manipulador	Classe
Manipulador composto	`HiveCompositeHandler`
Manipulador de metadados	`HiveMetadataHandler`
Manipulador de registros	`HiveRecordHandler`

Parâmetros do manipulador de conexão única

Parameter	Descrição
`default`	Obrigatório. A string de conexão padrão.

Os manipuladores de conexão únicos oferecem suporte a uma instância de banco de dados e devem fornecer um parâmetro de string de conexão default. Todas as outras strings de conexão são ignoradas.

O exemplo de propriedade a seguir é para uma única instância do Cloudera Hive com suporte em uma função do Lambda.

Propriedade	Valor
padrão	`hive://jdbc:hive2://hive1:10000/default;secret=${Test/RDS/hive1}`

Parâmetros de derramamento

O SDK do Lambda pode derramar dados no Amazon S3. Todas as instâncias do banco de dados acessadas pela mesma função do Lambda derramam no mesmo local.

Parameter	Descrição
`spill_bucket`	Obrigatório. Nome do bucket de derramamento.
`spill_prefix`	Obrigatório. Prefixo de chave do bucket de derramamento.
`spill_put_request_headers`	(Opcional) Um mapa codificado em JSON de cabeçalhos e valores de solicitações para a solicitação `putObject` do Amazon S3 usada para o derramamento (por exemplo, `{"x-amz-server-side-encryption" : "AES256"}`). Para outros cabeçalhos possíveis, consulte PutObject na Referência da API do Amazon Simple Storage Service.

Suporte ao tipo de dados

A tabela a seguir mostra os correspondentes tipos de dados do JDBC, do Cloudera Hive e do Arrow.

JDBC	Cloudera Hive	Arrow
Booleano	Booleano	Bit
Inteiro	TINYINT	Tiny
Short	SMALLINT	Smallint
Inteiro	INT	Int
Longo	BIGINT	Bigint
flutuação	float4	Float4
Duplo	float8	Float8
Data	date	Data/Dia
Timestamp	timestamp	Date Milli
String	VARCHAR	Varchar
Bytes	bytes	Varbinary
BigDecimal	Decimal	Decimal
ARRAY	N/D (ver nota)	Lista

nota

Atualmente, o Cloudera Hive não oferece suporte para os tipos agregados ARRAY, MAP, STRUCT ou UNIONTYPE. As colunas de tipos agregados são tratadas como colunas VARCHAR pelo SQL.

Partições e divisões

As partições são usadas para determinar como gerar divisões para o conector. O Athena constrói uma coluna sintética do tipo varchar que representa o esquema de particionamento da tabela para ajudar o conector a gerar divisões. O conector não modifica a definição real da tabela.

Performance

O Cloudera Hive oferece suporte a partições estáticas. O conector do Athena para o Cloudera Hive pode recuperar dados dessas partições em paralelo. Se você quiser consultar conjuntos de dados muito grandes com distribuição uniforme de partições, o particionamento estático é altamente recomendado. O conector Cloudera Hive é resiliente ao controle de utilização devido à simultaneidade.

O conector do Athena para o Cloudera Hive executa a passagem direta de predicados para diminuir os dados examinados pela consulta. Cláusulas LIMIT, predicados simples e expressões complexas são passados diretamente ao conector para reduzir a quantidade de dados examinados e o runtime de execução da consulta.

Cláusulas LIMIT

Uma instrução LIMIT N reduz os dados examinados pela consulta. Com a passagem direta de LIMIT N, o conector só retorna N linhas para o Athena.

Predicados

Um predicado é uma expressão na cláusula WHERE de uma consulta SQL, que avalia para um valor booleano e filtra as linhas com base em várias condições. O conector do Athena para o Cloudera Hive pode combinar essas expressões e passá-las diretamente ao Cloudera Hive para melhorar a funcionalidade e reduzir a quantidade de dados examinados.

Os seguintes operadores do conector do Athena para o Cloudera Hive são compatíveis com a passagem direta de predicados:

Booleanos: E, OU, NÃO
Igualdade: EQUAL, NOT_EQUAL, LESS_THAN, LESS_THAN_OR_EQUAL, GREATER_THAN, GREATER_THAN_OR_EQUAL, IS_NULL
Aritméticos: ADICIONAR, SUBTRAIR, MULTIPLICAR, DIVIDIR, MÓDULO, NEGAR
Outros:LIKE_PATTERN, IN

Exemplo de passagem direta combinada

Para ter recursos aprimorados de consulta, combine os tipos de passagem direta, como no seguinte exemplo:


SELECT * 
FROM my_table 
WHERE col_a > 10 
    AND ((col_a + col_b) > (col_c % col_d))
    AND (col_e IN ('val1', 'val2', 'val3') OR col_f LIKE '%pattern%') 
LIMIT 10;

Consultas de passagem

O conector Cloudera Hive é compatível com consultas de passagem. As consultas de passagem usam uma função de tabela para enviar sua consulta completa para execução na fonte de dados.

Para usar consultas de passagem com o Cloudera Hive, você pode empregar a seguinte sintaxe:


SELECT * FROM TABLE(
        system.query(
            query => 'query string'
        ))

O exemplo de consulta a seguir envia uma consulta para uma fonte de dados no Cloudera Hive. A consulta seleciona todas as colunas na tabela customer, limitando os resultados a 10.


SELECT * FROM TABLE(
        system.query(
            query => 'SELECT * FROM customer LIMIT 10'
        ))

Informações de licença

Ao usar esse conector, você reconhece a inclusão de componentes de terceiros, cuja lista pode ser encontrada no arquivo pom.xml desse conector, e concorda com os termos das respectivas licenças de terceiros fornecidas no arquivo LICENSE.txt em GitHub.com.

Recursos adicionais

Para obter as informações mais recentes sobre a versão do driver JDBC, consulte o arquivo pom.xml do conector Cloudera Hive em GitHub.com.

Para obter mais informações sobre esse conector, visite o site correspondente em GitHub.com.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Azure Synapse

Cloudera Impala