Requisitos previos Limitaciones Términos Parámetros Compatibilidad con tipos de datos Particiones y divisiones Rendimiento Consultas de acceso directo Información sobre licencias Recursos adicionales

Conector Cloudera Hive de Amazon Athena

El conector Cloudera Hive de Amazon Athena permite que Athena ejecute consultas SQL en la distribución de Cloudera Hive con Hadoop. El conector transforma las consultas SQL de Athena en la sintaxis HiveQL equivalente.

Este conector no utiliza Conexiones de Glue para centralizar las propiedades de configuración en Glue. La conexión se configura a través de Lambda.

Requisitos previos

Implemente el conector en su Cuenta de AWS mediante la consola de Athena o AWS Serverless Application Repository. Para obtener más información, consulte Cómo crear una conexión de origen de datos o Uso del AWS Serverless Application Repository para implementar un conector de origen de datos.
Antes de usar este conector, debe configurar una VPC y un grupo de seguridad. Para obtener más información, consulte Cómo crear una VPC para un conector de origen de datos o una conexión de AWS Glue.

Limitaciones

Las operaciones de escritura de DDL no son compatibles.
En una configuración de multiplexor, el bucket de vertido y el prefijo se comparten en todas las instancias de base de datos.
Cualquier límite de Lambda relevante. Para obtener más información, consulte Cuotas de Lambda en la Guía para desarrolladores de AWS Lambda.

Términos

Los siguientes términos hacen referencia al conector de Cloudera Hive.

Instancia de base de datos: cualquier instancia de base de datos implementada en las instalaciones, en Amazon EC2 o en Amazon RDS.
Controlador: un controlador de Lambda que accede a la instancia de base de datos. Un controlador puede ser para los metadatos o para los registros de datos.
Controlador de metadatos: un controlador de Lambda que recupera los metadatos de la instancia de base de datos.
Controlador de registros: un controlador de Lambda que recupera registros de datos de la instancia de base de datos.
Controlador compuesto: un controlador de Lambda que recupera tanto los metadatos como los registros de datos de la instancia de base de datos.
Propiedad o parámetro: una propiedad de base de datos que usan los controladores para extraer información de la base de datos. Estas propiedades se configuran como variables de entorno de Lambda.
Cadena de conexión: una cadena de texto que se usa para establecer una conexión con una instancia de base de datos.
Catálogo: un catálogo ajeno a AWS Glue registrado en Athena que es un prefijo obligatorio para la propiedad connection_string.
Controlador de multiplexación: un controlador de Lambda que puede aceptar y usar varias conexiones a bases de datos.

Parámetros

Utilice los parámetros de esta sección para configurar el conector de Cloudera Hive.

Cadena de conexión

Use una cadena de conexión JDBC con el siguiente formato para conectarse a una instancia de base de datos.


hive://${jdbc_connection_string}

Uso de un controlador de multiplexación

Puede usar un multiplexor para conectarse a varias instancias de base de datos con una sola función de Lambda. Las solicitudes se enrutan por nombre de catálogo. Use las siguientes clases en Lambda.

Controlador	Clase
Controlador compuesto	`HiveMuxCompositeHandler`
Controlador de metadatos	`HiveMuxMetadataHandler`
Controlador de registros	`HiveMuxRecordHandler`

Parámetros del controlador de multiplexación

Parámetro	Descripción
`$catalog_connection_string`	Obligatorio. Una cadena de conexión de instancia de base de datos. Agregue el prefijo a la variable de entorno con el nombre del catálogo usado en Athena. Por ejemplo, si el catálogo registrado en Athena es `myhivecatalog`, el nombre de la variable de entorno será `myhivecatalog_connection_string`.
`default`	Obligatorio. La cadena de conexión predeterminada. Esta cadena se usa cuando el catálogo es `lambda:${AWS_LAMBDA_FUNCTION_NAME}`.

Las siguientes propiedades de ejemplo son para una función de Lambda de Hive MUX que admite dos instancias de base de datos: hive1 (la predeterminada) y hive2.

Propiedad	Valor
`default`	`hive://jdbc:hive2://hive1:10000/default;${Test/RDS/hive1}`
`hive2_catalog1_connection_string`	`hive://jdbc:hive2://hive1:10000/default;${Test/RDS/hive1}`
`hive2_catalog2_connection_string`	`hive://jdbc:hive2://hive2:10000/default;UID=sample&PWD=sample`

Proporcionar credenciales

Para proporcionar un nombre de usuario y una contraseña para la base de datos en la cadena de conexión de JDBC, el conector Cloudera Hive necesita un secreto de AWS Secrets Manager. Para usar la función Consulta federada de Athena con AWS Secrets Manager, la VPC conectada a la función de Lambda debe tener acceso a Internet o un punto de conexión de VPC para conectarse a Secrets Manager.

Ponga el nombre de un secreto en AWS Secrets Manager, en la cadena de conexión de JDBC. El conector reemplaza el nombre del secreto por los valores username y password de Secrets Manager.

Ejemplo de cadena de conexión con nombre secreto

La siguiente cadena tiene el nombre secreto ${Test/RDS/hive1}.


hive://jdbc:hive2://hive1:10000/default;...&${Test/RDS/hive1}&...

El conector usa el nombre secreto para recuperar los secretos y proporcionar el nombre de usuario y la contraseña, como en el siguiente ejemplo.


hive://jdbc:hive2://hive1:10000/default;...&UID=sample2&PWD=sample2&...

Actualmente, el conector de Cloudera Hive reconoce las propiedades UID y PWD de JDBC.

Uso de un controlador de conexión única

Puedes usar los siguientes controladores de registros y metadatos de conexión única para conectarte a una sola instancia de Cloudera Hive.

Tipo de controlador	Clase
Controlador compuesto	`HiveCompositeHandler`
Controlador de metadatos	`HiveMetadataHandler`
Controlador de registros	`HiveRecordHandler`

Parámetros de controlador de conexión única

Parámetro	Descripción
`default`	Obligatorio. La cadena de conexión predeterminada.

Los controladores de conexión única admiten una instancia de base de datos y deben proporcionar un parámetro de cadena de conexión default. Se omiten todas las demás cadenas de conexión.

La siguiente propiedad de ejemplo es para una sola instancia de Cloudera Hive compatible con una función de Lambda.

Propiedad	Valor
predeterminado	`hive://jdbc:hive2://hive1:10000/default;secret=${Test/RDS/hive1}`

Parámetros de vertido

El SDK de Lambda puede verter datos en Amazon S3. Todas las instancias de bases de datos a las que se accede mediante la misma función de Lambda se vierten en la misma ubicación.

Parámetro	Descripción
`spill_bucket`	Obligatorio. Nombre del bucket de vertido.
`spill_prefix`	Obligatorio. Prefijo de la clave del bucket de vertido.
`spill_put_request_headers`	(Opcional) Un mapa codificado en JSON de encabezados y valores de solicitudes para la solicitud `putObject` de Amazon S3 que se usa para el vertido (por ejemplo, `{"x-amz-server-side-encryption" : "AES256"}`). Para ver otros encabezados posibles, consulte PutObject en la referencia de la API de Amazon Simple Storage Service.

Compatibilidad con tipos de datos

En la siguiente tabla, se muestran los tipos de datos correspondientes para JDBC, Cloudera Hive y Arrow.

JDBC	Cloudera Hive	Arrow
Booleano	Booleano	Bit
Entero	TINYINT	Pequeño
Short	SMALLINT	Smallint
Entero	INT	Int
Largo	BIGINT	Bigint
float	float4	Float4
Doble	float8	Float8
Date	date	DateDay
Timestamp	marca de tiempo	DateMilli
Cadena	VARCHAR	Varchar
Bytes	bytes	Varbinary
BigDecimal	Decimal	Decimal
ARRAY	N/D (ver nota)	Enumeración

nota

Actualmente, Cloudera Hive no admite los tipos agregados ARRAY, MAP, STRUCT o UNIONTYPE. Las columnas de tipos agregados se tratan como columnas VARCHAR en SQL.

Particiones y divisiones

Las particiones se usan para determinar cómo generar divisiones para el conector. Athena crea una columna sintética de tipo varchar que representa el esquema de partición de la tabla para ayudar al conector a generar divisiones. El conector no modifica la definición de la tabla real.

Rendimiento

Cloudera Hive admite particiones estáticas. El conector Cloudera Hive de Athena puede recuperar datos de estas particiones en paralelo. Si quiere consultar conjuntos de datos muy grandes con una distribución uniforme de particiones, se recomienda encarecidamente la partición estática. El conector Cloudera Hive resiste las limitaciones debidas a la simultaneidad.

El conector Cloudera Hive de Athena inserta predicados para reducir los datos analizados en la consulta. Los predicados simples, las expresiones complejas y las cláusulas LIMIT se insertan en el conector para reducir la cantidad de datos analizados y disminuir el tiempo de ejecución de las consultas.

Cláusulas LIMIT

Una instrucción LIMIT N reduce los datos analizados en la consulta. Con la inserción LIMIT N, el conector devuelve solo las filas N a Athena.

Predicados

Un predicado es una expresión de la cláusula WHERE de una consulta SQL que da como resultado un valor booleano y filtra las filas en función de varias condiciones. El conector Cloudera Hive de Athena puede combinar estas expresiones e insertarlas directamente en Cloudera Hive para mejorar la funcionalidad y reducir la cantidad de datos analizados.

Los siguientes operadores del conector Cloudera Hive de Athena admiten la inserción de predicados:

Booleano: AND, OR, NOT.
Igualdad: EQUAL, NOT_EQUAL, LESS_THAN, LESS_THAN_OR_EQUAL, GREATER_THAN, GREATER_THAN_OR_EQUAL, IS_NULL.
Aritmética: ADD, SUBTRACT, MULTIPLY, DIVIDE, MODULUS, NEGATE.
Otros: LIKE_PATTERN, IN.

Ejemplo de inserción combinada

Para mejorar las capacidades de consulta, combine los tipos de inserciones, como en el siguiente ejemplo:


SELECT * 
FROM my_table 
WHERE col_a > 10 
    AND ((col_a + col_b) > (col_c % col_d))
    AND (col_e IN ('val1', 'val2', 'val3') OR col_f LIKE '%pattern%') 
LIMIT 10;

Consultas de acceso directo

El conector de Cloudera Hive admite consultas de acceso directo. Las consultas de acceso directo utilizan una función de tabla para enviar la consulta completa al origen de datos para su ejecución.

Para usar consultas de acceso directo con Cloudera Hive, puede utilizar la siguiente sintaxis:


SELECT * FROM TABLE(
        system.query(
            query => 'query string'
        ))

El siguiente ejemplo de consulta envía una consulta a un origen de datos de Cloudera Hive. La consulta selecciona todas las columnas de la tabla customer y limita los resultados a 10.


SELECT * FROM TABLE(
        system.query(
            query => 'SELECT * FROM customer LIMIT 10'
        ))

Información sobre licencias

Al usar este conector, reconoce la inclusión de componentes de terceros, cuya lista se puede encontrar en el archivo pom.xml para este conector y acepta los términos de las licencias de terceros correspondientes que se proporcionan en el archivo LICENSE.txt de GitHub.com.

Recursos adicionales

Para obtener la información más reciente sobre la versión del controlador JDBC, consulte el archivo pom.xml para el conector de Cloudera Hive en GitHub.com.

Para obtener más información acerca de este conector, consulte el sitio correspondiente en GitHub.com.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Azure Synapse

Cloudera Impala