Requisitos previos Limitaciones Términos Parámetros Compatibilidad con tipos de datos Conversiones de tipos de datos Particiones y divisiones Rendimiento Consultas de acceso directo Información sobre licencias Recursos adicionales

Conector Snowflake de Amazon Athena

El conector de Snowflake de Amazon Athena permite que Amazon Athena ejecute consultas SQL en los datos almacenados en la base de datos SQL de Snowflake o en instancias de RDS mediante JDBC.

Este conector se puede registrar en el Catálogo de datos de Glue como un catálogo federado. Admite los controles de acceso a los datos definidos en Lake Formation a nivel de catálogo, base de datos, tabla, columna, fila y etiqueta. Este conector utiliza Conexiones de Glue para centralizar las propiedades de configuración en Glue.

Requisitos previos

Implemente el conector en su Cuenta de AWS mediante la consola de Athena o AWS Serverless Application Repository. Para obtener más información, consulte Cómo crear una conexión de origen de datos o Uso del AWS Serverless Application Repository para implementar un conector de origen de datos.

Limitaciones

Las operaciones de escritura de DDL no son compatibles.
En una configuración de multiplexor, el bucket de vertido y el prefijo se comparten en todas las instancias de base de datos.
Cualquier límite de Lambda relevante. Para obtener más información, consulte Cuotas de Lambda en la Guía para desarrolladores de AWS Lambda.
Actualmente, se admiten vistas de Snowflake con una sola división.
En Snowflake, dado que los nombres de los objetos distinguen entre mayúsculas y minúsculas, dos tablas pueden tener el mismo nombre en minúsculas y mayúsculas (por ejemplo, EMPLOYEE y employee). En Consulta federada de Athena, los nombres de las tablas de esquemas se proporcionan a la función de Lambda en minúsculas. Para evitar este problema, puede proporcionar sugerencias de consulta @schemaCase para recuperar los datos de las tablas que tienen nombres que distinguen entre mayúsculas y minúsculas. A continuación, se muestran dos consultas de ejemplo con sugerencias de consulta.
```
SELECT *
                    FROM "lambda:snowflakeconnector".SYSTEM."MY_TABLE@schemaCase=upper&tableCase=upper"     
```
```
SELECT *
                    FROM "lambda:snowflakeconnector".SYSTEM."MY_TABLE@schemaCase=upper&tableCase=lower"     
```
Si migra las conexiones de Snowflake al Catálogo de Glue y Lake Formation, Athena no pondrá de forma predeterminada todas las solicitudes en mayúsculas ni admitirá la anotación. El comportamiento predeterminado de la conexión de Glue no ajustará las mayúsculas y minúsculas.

Snowflake admite los siguientes modos de mayúsculas y minúsculas:
- NONE (opción predeterminada para el conector con Conexión de Glue)
- CASE_INSENSITIVE_SEARCH
- ANNOTATION (opción predeterminada para el conector sin Conexión de Glue)

Términos

Los siguientes términos hacen referencia al conector de Snowflake.

Instancia de base de datos: cualquier instancia de base de datos implementada en las instalaciones, en Amazon EC2 o en Amazon RDS.
Controlador: un controlador de Lambda que accede a la instancia de base de datos. Un controlador puede ser para los metadatos o para los registros de datos.
Controlador de metadatos: un controlador de Lambda que recupera los metadatos de la instancia de base de datos.
Controlador de registros: un controlador de Lambda que recupera registros de datos de la instancia de base de datos.
Controlador compuesto: un controlador de Lambda que recupera tanto los metadatos como los registros de datos de la instancia de base de datos.
Propiedad o parámetro: una propiedad de base de datos que usan los controladores para extraer información de la base de datos. Estas propiedades se configuran como variables de entorno de Lambda.
Cadena de conexión: una cadena de texto que se usa para establecer una conexión con una instancia de base de datos.
Catálogo: un catálogo ajeno a AWS Glue registrado en Athena que es un prefijo obligatorio para la propiedad connection_string.
Controlador de multiplexación: un controlador de Lambda que puede aceptar y usar varias conexiones a bases de datos.

Parámetros

Utilice los parámetros de esta sección para configurar el conector de Snowflake.

Recomendamos configurar un conector de Snowflake por medio de un objeto de conexiones de Glue. Para ello, establezca la variable de entorno glue_connection del conector Snowflake Lambda con el nombre de la conexión de Glue que se va a utilizar.

Propiedades de las conexiones de Glue

Utilice el siguiente comando para obtener el esquema de un objeto de conexión de Glue. Este esquema contiene todos los parámetros que puede utilizar para controlar su conexión.


aws glue describe-connection-type --connection-type SNOWFLAKE

Propiedades del entorno Lambda

glue_connection: especifica el nombre de la conexión de Glue asociada al conector federado.
casing_mode: (opcional) especifica cómo manejar el uso de mayúsculas y minúsculas en los nombres de esquemas y tablas. El parámetro casing_mode utiliza los siguientes valores para especificar el comportamiento de las mayúsculas y minúsculas.
- none: no modifica las mayúsculas y minúsculas de los nombres de esquemas y tablas proporcionados. Este es el valor predeterminado para los conectores que tienen una conexión de Glue asociada.
- annotation: ajusta el nombre de la tabla si hay una anotación presente. Este es el valor predeterminado para los conectores que no tienen una conexión de Glue asociada.
- case_insensitive_search: realiza búsquedas sin distinguir mayúsculas y minúsculas en los nombres de esquemas y tablas en Snowflake. Utilice este valor si la consulta contiene nombres de esquemas o tablas que no coinciden con el uso de mayúsculas y minúsculas predeterminado del conector.
- upper: convierte a mayúsculas todos los nombres de esquemas y tablas proporcionados.
- lower: convierte a minúsculas todos los nombres de esquemas y tablas proporcionados.

nota

Todos los conectores que utilizan conexiones de Glue deben utilizar AWS Secrets Manager para almacenar credenciales.
El conector de Snowflake creado por medio de conexiones de Glue no admite el uso de un controlador de multiplexación.
El conector de Snowflake creado por medio de conexiones de Glue solo es compatible con ConnectionSchemaVersion 2.

nota

Los conectores de orígenes de datos de Athena creados a partir del 3 de diciembre de 2024 utilizan conexiones de AWS Glue.

Los nombres y definiciones de los parámetros que se indican a continuación corresponden a conectores de orígenes de datos de Athena creados sin una conexión de Glue asociada. Utilice los siguientes parámetros solo cuando implemente de forma manual una versión anterior de un conector de origen de datos de Athena o cuando no se especifique la propiedad de entorno de glue_connection.

Propiedades del entorno Lambda

default: la cadena de conexión JDBC que se utilizará para conectarse a la instancia de base de datos de Snowflake. Por ejemplo, snowflake://${jdbc_connection_string}
catalog_connection_string: la utiliza el controlador de multiplexación (no se admite cuando se utiliza una conexión Glue). Una cadena de conexión de instancia de base de datos. Agregue el prefijo a la variable de entorno con el nombre del catálogo usado en Athena. Por ejemplo, si el catálogo registrado en Athena es mysnowflakecatalog, el nombre de la variable de entorno será mysnowflakecatalog_connection_string.
spill_bucket: especifica el bucket de Amazon S3 para los datos que superen los límites de la función de Lambda.
spill_prefix: (opcional) de forma predeterminada, se establece una subcarpeta en la carpeta especificada spill_bucket llamada athena-federation-spill. Le recomendamos configurar un ciclo de vida de almacenamiento de Amazon S3 en esta ubicación para eliminar vertidos de más de un número predeterminado de días u horas.
spill_put_request_headers: (opcional) un mapa codificado en JSON de encabezados y valores de solicitudes para la solicitud putObject de Amazon S3 que se usa para el vertidos (por ejemplo, {"x-amz-server-side-encryption" : "AES256"}). Para ver otros encabezados posibles, consulte PutObject en la referencia de la API de Amazon Simple Storage Service.
kms_key_id: (opcional) de forma predeterminada, los datos que se vierten a Amazon S3 se cifran mediante el modo de cifrado autenticado AES-GCM y una clave generada aleatoriamente. Para que la función de Lambda use claves de cifrado más seguras generadas por KMS, como a7e63k4b-8loc-40db-a2a1-4d0en2cd8331, puede especificar un ID de clave de KMS.
disable_spill_encryption: (opcional) cuando se establece en True, desactiva el cifrado del vertido. El valor predeterminado es False, de modo que los datos que se vierten a S3 se cifran mediante AES-GCM, ya sea mediante una clave generada aleatoriamente o KMS para generar claves. La desactivación del cifrado de vertido puede mejorar el rendimiento, especialmente si su ubicación de vertido usa cifrado del servidor.

Cadena de conexión

Use una cadena de conexión JDBC con el siguiente formato para conectarse a una instancia de base de datos.


snowflake://${jdbc_connection_string}

Uso de un controlador de multiplexación

Puede usar un multiplexor para conectarse a varias instancias de base de datos con una sola función de Lambda. Las solicitudes se enrutan por nombre de catálogo. Use las siguientes clases en Lambda.

Controlador	Clase
Controlador compuesto	`SnowflakeMuxCompositeHandler`
Controlador de metadatos	`SnowflakeMuxMetadataHandler`
Controlador de registros	`SnowflakeMuxRecordHandler`

Parámetros del controlador de multiplexación

Parámetro	Descripción
`$catalog_connection_string`	Obligatorio. Una cadena de conexión de instancia de base de datos. Agregue el prefijo a la variable de entorno con el nombre del catálogo usado en Athena. Por ejemplo, si el catálogo registrado en Athena es `mysnowflakecatalog`, el nombre de la variable de entorno será `mysnowflakecatalog_connection_string`.
`default`	Obligatorio. La cadena de conexión predeterminada. Esta cadena se usa cuando el catálogo es `lambda:${AWS_LAMBDA_FUNCTION_NAME}`.

Las siguientes propiedades de ejemplo son para una función de Lambda de Snowflake MUX que admite dos instancias de base de datos: snowflake1 (la predeterminada) y snowflake2.

Propiedad	Valor
`default`	`snowflake://jdbc:snowflake://snowflake1.host:port/?warehouse=warehousename&db=db1&schema=schema1&${Test/RDS/Snowflake1}`
`snowflake_catalog1_connection_string`	`snowflake://jdbc:snowflake://snowflake1.host:port/?warehouse=warehousename&db=db1&schema=schema1${Test/RDS/Snowflake1}`
`snowflake_catalog2_connection_string`	`snowflake://jdbc:snowflake://snowflake2.host:port/?warehouse=warehousename&db=db1&schema=schema1&user=sample2&password=sample2`

Proporcionar credenciales

Para proporcionar un nombre de usuario y una contraseña para la base de datos en la cadena de conexión JDBC, puede usar las propiedades de la cadena de conexión o AWS Secrets Manager.

Cadena de conexión: se pueden especificar un nombre de usuario y una contraseña como propiedades en la cadena de conexión JDBC.

importante
Como práctica recomendada en materia de seguridad, no utilice credenciales codificadas en las variables de entorno ni en las cadenas de conexión. Para obtener información sobre cómo transferir los secretos codificados a AWS Secrets Manager, consulte Mover secretos codificados a AWS Secrets Manager en la Guía del usuario de AWS Secrets Manager.
AWS Secrets Manager: para utilizar la característica Consulta federada de Athena con AWS Secrets Manager, la VPC conectada a la función de Lambda debe tener acceso a Internet o un punto de conexión de VPC para conectarse a Secrets Manager.

Puede poner el nombre de un secreto en AWS Secrets Manager, en la cadena de conexión JDBC. El conector reemplaza el nombre del secreto por los valores username y password de Secrets Manager.

Para las instancias de bases de datos de Amazon RDS, esta compatibilidad está estrechamente integrada. Si usa Amazon RDS, le recomendamos encarecidamente que use AWS Secrets Manager y la rotación de credenciales. Si la base de datos no usa Amazon RDS, guarde las credenciales como archivos JSON con el siguiente formato:
```
{"username": "${username}", "password": "${password}"}
```

Ejemplo de cadena de conexión con nombre secreto

La siguiente cadena tiene el nombre secreto ${Test/RDS/Snowflake1}.


snowflake://jdbc:snowflake://snowflake1.host:port/?warehouse=warehousename&db=db1&schema=schema1${Test/RDS/Snowflake1}&...

El conector usa el nombre secreto para recuperar los secretos y proporcionar el nombre de usuario y la contraseña, como en el siguiente ejemplo.


snowflake://jdbc:snowflake://snowflake1.host:port/warehouse=warehousename&db=db1&schema=schema1&user=sample2&password=sample2&...

Actualmente, Snowflake reconoce las propiedades user y password de JDBC. También acepta el nombre de usuario y la contraseña con el formato nombre de usuario/contraseña sin las claves user o password.

Uso de un controlador de conexión única

Puede usar los siguientes controladores de registros y metadatos de conexión única para conectarse a una sola instancia de Snowflake.

Tipo de controlador	Clase
Controlador compuesto	`SnowflakeCompositeHandler`
Controlador de metadatos	`SnowflakeMetadataHandler`
Controlador de registros	`SnowflakeRecordHandler`

Parámetros de controlador de conexión única

Parámetro	Descripción
`default`	Obligatorio. La cadena de conexión predeterminada.

Los controladores de conexión única admiten una instancia de base de datos y deben proporcionar un parámetro de cadena de conexión default. Se omiten todas las demás cadenas de conexión.

La siguiente propiedad de ejemplo es para una sola instancia de Snowflake compatible con una función de Lambda.

Propiedad	Valor
`default`	`snowflake://jdbc:snowflake://snowflake1.host:port/?secret=Test/RDS/Snowflake1`

Parámetros de vertido

El SDK de Lambda puede verter datos en Amazon S3. Todas las instancias de bases de datos a las que se accede mediante la misma función de Lambda se vierten en la misma ubicación.

Parámetro	Descripción
`spill_bucket`	Obligatorio. Nombre del bucket de vertido.
`spill_prefix`	Obligatorio. Prefijo de la clave del bucket de vertido.
`spill_put_request_headers`	(Opcional) Un mapa codificado en JSON de encabezados y valores de solicitudes para la solicitud `putObject` de Amazon S3 que se usa para el vertido (por ejemplo, `{"x-amz-server-side-encryption" : "AES256"}`). Para ver otros encabezados posibles, consulte PutObject en la referencia de la API de Amazon Simple Storage Service.

Compatibilidad con tipos de datos

En la siguiente tabla, se muestran los tipos de datos correspondientes para JDBC y Apache Arrow.

JDBC	Arrow
Booleano	Bit
Entero	Pequeño
Short	Smallint
Entero	Int
Largo	Bigint
float	Float4
Doble	Float8
Date	DateDay
Marca de tiempo	DateMilli
Cadena	Varchar
Bytes	Varbinary
BigDecimal	Decimal
ARRAY	Enumeración

Conversiones de tipos de datos

Además de las conversiones de JDBC a Arrow, el conector lleva a cabo otras conversiones para que los tipos de datos de origen de Snowflake y Athena sean compatibles. Estas conversiones ayudan a garantizar que las consultas se ejecuten correctamente. En la siguiente tabla, se muestran estas conversiones.

Tipo de datos de origen (Snowflake)	Tipo de datos convertido (Athena)
TIMESTAMP	TIMESTAMPMILLI
DATE	TIMESTAMPMILLI
INTEGER	INT
DECIMAL	BIGINT
TIMESTAMP_NTZ	TIMESTAMPMILLI

Todos los demás tipos de datos no admitidos se convierten a VARCHAR.

Particiones y divisiones

Las particiones se usan para determinar cómo generar divisiones para el conector. Athena crea una columna sintética de tipo varchar que representa el esquema de partición de la tabla para ayudar al conector a generar divisiones. El conector no modifica la definición de la tabla real.

Para crear esta columna sintética y las particiones, Athena requiere que se defina una clave principal. Sin embargo, dado que Snowflake no aplica restricciones de clave principal, deberá aplicar la unicidad por su cuenta. En caso contrario, Athena adoptará una única partición de forma predeterminada.

Rendimiento

Para obtener un rendimiento óptimo, use filtros en las consultas siempre que sea posible. Además, recomendamos encarecidamente la creación de particiones nativas para recuperar enormes conjuntos de datos que tengan una distribución uniforme de particiones. La selección de un subconjunto de columnas acelera significativamente el tiempo de ejecución de las consultas y reduce la cantidad de datos analizados. El conector Snowflake resiste las limitaciones debidas a la simultaneidad.

El conector Snowflake de Athena inserta predicados para reducir los datos analizados en la consulta. Los predicados simples, las expresiones complejas y las cláusulas LIMIT se insertan en el conector para reducir la cantidad de datos analizados y disminuir el tiempo de ejecución de las consultas.

Cláusulas LIMIT

Una instrucción LIMIT N reduce los datos analizados en la consulta. Con la inserción LIMIT N, el conector devuelve solo las filas N a Athena.

Predicados

Un predicado es una expresión de la cláusula WHERE de una consulta SQL que da como resultado un valor booleano y filtra las filas en función de varias condiciones. El conector Snowflake de Athena puede combinar estas expresiones e insertarlas directamente en Snowflake para mejorar la funcionalidad y reducir la cantidad de datos analizados.

Los siguientes operadores del conector Snowflake de Athena admiten la inserción de predicados:

Booleano: AND, OR, NOT.
Igualdad: EQUAL, NOT_EQUAL, LESS_THAN, LESS_THAN_OR_EQUAL, GREATER_THAN, GREATER_THAN_OR_EQUAL, IS_DISTINCT_FROM, NULL_IF, IS_NULL.
Aritmética: ADD, SUBTRACT, MULTIPLY, DIVIDE, MODULUS, NEGATE.
Otros: LIKE_PATTERN, IN.

Ejemplo de inserción combinada

Para mejorar las capacidades de consulta, combine los tipos de inserciones, como en el siguiente ejemplo:


SELECT * 
FROM my_table 
WHERE col_a > 10 
    AND ((col_a + col_b) > (col_c % col_d))
    AND (col_e IN ('val1', 'val2', 'val3') OR col_f LIKE '%pattern%') 
LIMIT 10;

Consultas de acceso directo

El conector Snowflake admite consultas de acceso directo. Las consultas de acceso directo utilizan una función de tabla para enviar la consulta completa al origen de datos para su ejecución.

Para usar consultas de acceso directo con Snowflake, puede usar la siguiente sintaxis:


SELECT * FROM TABLE(
        system.query(
            query => 'query string'
        ))

En el siguiente ejemplo de consulta, se envía una consulta a un origen de datos de Snowflake. La consulta selecciona todas las columnas de la tabla customer y limita los resultados a 10.


SELECT * FROM TABLE(
        system.query(
            query => 'SELECT * FROM customer LIMIT 10'
        ))

Información sobre licencias

Al usar este conector, reconoce la inclusión de componentes de terceros, cuya lista se puede encontrar en el archivo pom.xml para este conector y acepta los términos de las licencias de terceros correspondientes que se proporcionan en el archivo LICENSE.txt de GitHub.com.

Recursos adicionales

Para obtener la información más reciente sobre la versión del controlador JDBC, consulte el archivo pom.xml para el conector de Snowflake en GitHub.com.

Para obtener más información acerca de este conector, consulte el sitio correspondiente en GitHub.com.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

SAP HANA

SQL Server

Conector Snowflake de Amazon Athena

Requisitos previos

Limitaciones

Términos

Parámetros

nota

nota

Cadena de conexión

Uso de un controlador de multiplexación

Parámetros del controlador de multiplexación

Proporcionar credenciales

importante

Ejemplo de cadena de conexión con nombre secreto

Uso de un controlador de conexión única

Parámetros de controlador de conexión única

Parámetros de vertido

Compatibilidad con tipos de datos

Conversiones de tipos de datos

Particiones y divisiones

Rendimiento

Cláusulas LIMIT

Predicados

Ejemplo de inserción combinada

Consultas de acceso directo

Información sobre licencias

Recursos adicionales