Conector do Amazon Athena para o Teradata - Amazon Athena

Conector do Amazon Athena para o Teradata

O conector do Amazon Athena para o Teradata permite que o Amazon Athena execute consultas SQL em dados armazenados nos seus bancos de dados Teradata.

Pré-requisitos

Limitações

  • Não há suporte para operações de gravação de DDL.

  • Em uma configuração de multiplexador, o prefixo e o bucket de derramamento são compartilhados em todas as instâncias do banco de dados.

  • Quaisquer limites relevantes do Lambda. Para obter mais informações, consulte Cotas do Lambda no Guia do desenvolvedor do AWS Lambda.

Termos

Os termos a seguir estão relacionados ao conector Teradata.

  • Instância do banco de dados: qualquer instância de um banco de dados implantado on-premises, no Amazon EC2 ou no Amazon RDS.

  • Manipulador: um manipulador Lambda que acessa sua instância de banco de dados. Um manipulador pode ser para metadados ou para registros de dados.

  • Manipulador de metadados: um manipulador Lambda que recupera metadados da sua instância de banco de dados.

  • Manipulador de registros: um manipulador Lambda que recupera registros de dados da sua instância de banco de dados.

  • Manipulador composto: um manipulador Lambda que recupera tanto metadados quanto registros de dados da sua instância de banco de dados.

  • Propriedade ou parâmetro: uma propriedade do banco de dados usada pelos manipuladores para extrair informações do banco de dados. Você configura essas propriedades como variáveis de ambiente do Lambda.

  • String de conexão: uma string de texto usada para estabelecer uma conexão com uma instância de banco de dados.

  • Catálogo: um catálogo não AWS Glue registrado no Athena que é um prefixo obrigatório para a propriedade connection_string.

  • Manipulador de multiplexação: um manipulador Lambda que pode aceitar e usar várias conexões de banco de dados.

Pré-requisito da camada do Lambda

Para usar o conector do Teradata com o Athena, você deve criar uma camada do Lambda que inclua o driver JDBC do Teradata. Uma camada do Lambda é um arquivo .zip que contém código adicional para uma função do Lambda. Quando você implanta o conector do Teradata em sua conta, você especifica o ARN da camada. Isso anexa a camada do Lambda com o driver JDBC do Teradata ao conector Teradata para que você possa usá-lo com o Athena.

Para obter mais informações sobre camadas do Lambda, consulte Criar e compartilhar camadas do Lambda no Guia do desenvolvedor do AWS Lambda.

Criar uma camada do Lambda para o conector do Teradata
  1. Navegue até a página de download do driver JDBC do Teradata em https://downloads.teradata.com/download/connectivity/jdbc-driver.

  2. Baixe o driver JDBC do Teradata. O site exige que você crie uma conta e aceite um contrato de licença para baixar o arquivo.

  3. Extraia o arquivo terajdbc4.jar do arquivo baixado.

  4. Crie a estrutura de pastas descrita a seguir e coloque o arquivo .jar nela.

    java\lib\terajdbc4.jar

  5. Crie um arquivo .zip com toda a estrutura de pastas que contém o arquivo terajdbc4.jar.

  6. Faça login no AWS Management Console e abra o console do AWS Lambda em https://console.aws.amazon.com/lambda/.

  7. No painel de navegação, escolha Layers (Camadas) e Create layer (Criar uma camada).

  8. Em Name (Nome), insira um nome para a camada (por exemplo, TeradataJava11LambdaLayer).

  9. Certifique-se de que a opção Upload a .zip file (Carregar um arquivo .zip) esteja selecionada.

  10. Escolha Upload (Carregar) e, em seguida, carregue a pasta compactada que contém o driver JDBC do Teradata.

  11. Escolha Criar.

  12. Na página de detalhes da camada, copie o ARN da camada escolhendo o ícone da área de transferência no topo da página.

  13. Salve o ARN para referência.

Parâmetros

Use as variáveis de ambiente do Lambda nesta seção para configurar o conector Teradata.

String de conexão

Use uma string de conexão JDBC no seguinte formato para se conectar a uma instância de banco de dados.

teradata://${jdbc_connection_string}

Uso de um manipulador de multiplexação

É possível usar um multiplexador para se conectar a várias instâncias de banco de dados com uma única função do Lambda. As solicitações são encaminhadas por nome do catálogo. Use as seguintes classes no Lambda.

Manipulador Classe
Manipulador composto TeradataMuxCompositeHandler
Manipulador de metadados TeradataMuxMetadataHandler
Manipulador de registros TeradataMuxRecordHandler

Parâmetros do manipulador de multiplexação

Parâmetro Descrição
$catalog_connection_string Obrigatório. Uma string de conexão de instância de banco de dados. Prefixe a variável de ambiente com o nome do catálogo usado no Athena. Por exemplo, se o catálogo registrado no Athena for myteradatacatalog, então o nome da variável de ambiente será myteradatacatalog_connection_string.
default Obrigatório. A string de conexão padrão. Essa string é usada quando o catálogo for lambda:${AWS_LAMBDA_FUNCTION_NAME}.

As propriedades de exemplo a seguir são para uma função do Lambda MUX do Teradata que ofereça suporte a duas instâncias de banco de dados: teradata1 (o padrão) e teradata2.

Propriedade Valor
default teradata://jdbc:teradata://teradata2.host/TMODE=ANSI,CHARSET=UTF8,DATABASE=TEST,user=sample2&password=sample2
teradata_catalog1_connection_string teradata://jdbc:teradata://teradata1.host/TMODE=ANSI,CHARSET=UTF8,DATABASE=TEST,${Test/RDS/Teradata1}
teradata_catalog2_connection_string teradata://jdbc:teradata://teradata2.host/TMODE=ANSI,CHARSET=UTF8,DATABASE=TEST,user=sample2&password=sample2

Fornecimento de credenciais

Para fornecer um nome de usuário e uma senha para seu banco de dados na string de conexão JDBC, é possível usar as propriedades da string de conexão ou o AWS Secrets Manager.

  • String de conexão: um nome de usuário e uma senha podem ser especificados como propriedades na string de conexão do JDBC.

    Importante

    Como prática recomendada de segurança, não use credenciais codificadas em suas variáveis de ambiente ou strings de conexão. Para obter informações sobre como mover seus segredos codificados para o AWS Secrets Manager, consulte Mover segredos codificados para o AWS Secrets Manager no Guia do usuário do AWS Secrets Manager.

  • AWS Secrets Manager: para usar o recurso Athena Federated Query com o AWS Secrets Manager, a VPC conectada à sua função do Lambda deve ter acesso à Internet ou um endpoint da VPC para se conectar ao Secrets Manager.

    É possível colocar o nome de um segredo no AWS Secrets Manager na sua string de conexão JDBC. O conector substitui o nome secreto pelos valores de username e password do Secrets Manager.

    Para instâncias de banco de dados do Amazon RDS, esse suporte é totalmente integrado. Se você usa o Amazon RDS, é altamente recomendável usar o AWS Secrets Manager e rotação de credenciais. Se seu banco de dados não usar o Amazon RDS, armazene as credenciais em JSON no seguinte formato:

    {"username": "${username}", "password": "${password}"}
Exemplo de string de conexão com nome secreto

A string a seguir tem o nome secreto ${Test/RDS/Teradata1}.

teradata://jdbc:teradata1.host/TMODE=ANSI,CHARSET=UTF8,DATABASE=TEST,${Test/RDS/Teradata1}&...

O conector usa o nome secreto para recuperar segredos e fornecer o nome de usuário e a senha, como no exemplo a seguir.

teradata://jdbc:teradata://teradata1.host/TMODE=ANSI,CHARSET=UTF8,DATABASE=TEST,...&user=sample2&password=sample2&...

Atualmente, o Teradata reconhece as propriedades user e password do JDBC. Ele também aceita o nome do usuário e a senha no formato nome de usuário/senha sem as chaves user ou password.

Uso de um único manipulador de conexão

É possível usar os seguintes metadados de conexão única e manipuladores de registros para se conectar a uma única instância Teradata.

Tipo de manipulador Classe
Manipulador composto TeradataCompositeHandler
Manipulador de metadados TeradataMetadataHandler
Manipulador de registros TeradataRecordHandler

Parâmetros do manipulador de conexão única

Parâmetro Descrição
default Obrigatório. A string de conexão padrão.

Os manipuladores de conexão únicos oferecem suporte a uma instância de banco de dados e devem fornecer um parâmetro de string de conexão default. Todas as outras strings de conexão são ignoradas.

O exemplo de propriedade a seguir é para uma única instância do Teradata com suporte em uma função do Lambda.

Propriedade Valor
default teradata://jdbc:teradata://teradata1.host/TMODE=ANSI,CHARSET=UTF8,DATABASE=TEST,secret=Test/RDS/Teradata1

Parâmetros de derramamento

O SDK do Lambda pode derramar dados no Amazon S3. Todas as instâncias do banco de dados acessadas pela mesma função do Lambda derramam no mesmo local.

Parâmetro Descrição
spill_bucket Obrigatório. Nome do bucket de derramamento.
spill_prefix Obrigatório. Prefixo de chave do bucket de derramamento.
spill_put_request_headers (Opcional) Um mapa codificado em JSON de cabeçalhos e valores de solicitações para a solicitação putObject do Amazon S3 usada para o derramamento (por exemplo, {"x-amz-server-side-encryption" : "AES256"}). Para outros cabeçalhos possíveis, consulte PutObject na Referência da API do Amazon Simple Storage Service.

Suporte ao tipo de dados

A tabela a seguir mostra os correspondentes tipos de dados do JDBC e do Apache Arrow.

JDBC Arrow
Booleano Bit
Inteiro Tiny
Short Smallint
Inteiro Int
Longo Bigint
float Float4
Double Float8
Data Data/Dia
Timestamp Date Milli
String Varchar
Bytes Varbinary
BigDecimal Decimal
ARRAY Lista

Partições e divisões

Uma partição é representada por uma única coluna de partição do tipo Integer. A coluna contém os nomes das partições definidas em uma tabela do Teradata. Para uma tabela que não tenha nomes de partição, * será retornado, o que equivale a uma única partição. Uma partição é equivalente a uma divisão.

Nome Tipo Descrição
Partição Inteiro Partição nomeada no Teradata.

Performance

O Teradata oferece suporte a partições nativas. O conector do Athena para o Teradata pode recuperar dados dessas partições em paralelo. Se você quiser consultar conjuntos de dados muito grandes com distribuição uniforme de partições, o particionamento nativo é altamente recomendado. A seleção de um subconjunto de colunas diminui significativamente o runtime da consulta. O conector apresenta alguns controles de utilização devido à simultaneidade.

O conector do Athena para o Teradata realiza a passagem direta de predicados para diminuir os dados examinados pela consulta. Predicados simples e expressões complexas são passados diretamente ao conector para reduzir a quantidade de dados examinados e o runtime de execução da consulta.

Predicados

Um predicado é uma expressão na cláusula WHERE de uma consulta SQL que é avaliado como um valor booleano e filtra as linhas com base em várias condições. O conector do Athena para o Teradata pode combinar essas expressões e passá-las diretamente ao Synapse para melhorar a funcionalidade e reduzir a quantidade de dados examinados.

Os seguintes operadores do conector do Athena para o Teradata são compatíveis com a passagem direta de predicados:

  • Booleanos: E, OU, NÃO

  • Igualdade:EQUAL, NOT_EQUAL, LESS_THAN, LESS_THAN_OR_EQUAL, GREATER_THAN, GREATER_THAN_OR_EQUAL, NULL_IF, IS_NULL

  • Aritméticos: ADICIONAR, SUBTRAIR, MULTIPLICAR, DIVIDIR, MÓDULO, NEGAR

  • Outros:LIKE_PATTERN, IN

Exemplo de passagem direta combinada

Para ter recursos aprimorados de consulta, combine os tipos de passagem direta, como no seguinte exemplo:

SELECT * FROM my_table WHERE col_a > 10 AND ((col_a + col_b) > (col_c % col_d)) AND (col_e IN ('val1', 'val2', 'val3') OR col_f LIKE '%pattern%');

Consultas de passagem

O conector Teradata é compatível com consultas de passagem. As consultas de passagem usam uma função de tabela para enviar sua consulta completa para execução na fonte de dados.

Para usar consultas de passagem com o Teradata, você pode empregar a seguinte sintaxe:

SELECT * FROM TABLE( system.query( query => 'query string' ))

O exemplo de consulta a seguir envia uma consulta para uma fonte de dados no Teradata. A consulta seleciona todas as colunas na tabela customer, limitando os resultados a 10.

SELECT * FROM TABLE( system.query( query => 'SELECT * FROM customer LIMIT 10' ))

Informações de licença

Ao usar esse conector, você reconhece a inclusão de componentes de terceiros, cuja lista pode ser encontrada no arquivo pom.xml desse conector, e concorda com os termos das respectivas licenças de terceiros fornecidas no arquivo LICENSE.txt em GitHub.com.

Recursos adicionais do

Para obter as informações mais recentes sobre a versão do driver JDBC, consulte o arquivo pom.xml do conector Teradata em GitHub.com.

Para obter mais informações sobre esse conector, visite o site correspondente em GitHub.com.