Implementación de un conector y conexión a un origen de datos
La preparación para la creación de consultas federadas es un proceso de dos partes: implementación de un conector de origen de datos de función Lambda y conexión de la función Lambda a un origen de datos. En este proceso, proporciona a la función Lambda un nombre que luego puede elegir en la consola de Athena y asignar al conector un nombre al que puede referenciar en las consultas SQL.
Para utilizar la característica de consulta federada de Athena con AWS Secrets Manager, debe configurar un punto de enlace privado de Amazon VPC para Secrets Manager. Para obtener más información, consulte Creación de un punto de conexión privado de VPC de Secrets Manager en la Guía del usuario de AWS Secrets Manager.
Parte 1: implementación de un conector de origen de datos
Para elegir, asignar un nombre e implementar un conector de origen de datos, utilice las consolas de Athena y Lambda en un proceso integrado.
Para utilizar la característica de consulta federada de Amazon Athena, configure el grupo de trabajo en la versión 2 del motor Athena. Para ver los pasos, consulte Cambio de las versiones del motor Athena.
Para implementar un conector de origen de datos, realice el siguiente procedimiento:
Abra la consola de Athena en https://console.aws.amazon.com/athena/
. Si el panel de navegación de la consola no está visible, elija el menú de expansión de la izquierda.
-
En el panel de navegación, elija Data source (Orígenes de datos).
-
En la página Data sources (Orígenes de datos), elija Create data source (Crearo origen de datos).
-
En Choose a data source (Elegir origen de datos), elija el origen de datos que quiera que Athena consulte, tenga en cuenta las siguientes recomendaciones:
-
Elija una opción de consulta federada que corresponda al origen de datos. Athena tiene conectores de orígenes de datos precreados que se pueden configurar para los orígenes, entre ellos, MySQL, Amazon DocumentDB y PostgreSQL.
-
Elija S3 -AWS Glue Data Catalog si quiere consultar datos en Amazon S3 y no utiliza un metastore de Apache Hive ni ninguna de las otras opciones de origen de datos de consultas federadas de esta página. Athena utiliza AWS Glue Data Catalog para almacenar metadatos e información de esquemas de orígenes de datos en Amazon S3. Esta es la opción predeterminada (no federada). Para obtener más información, consulte Uso de AWS Glue para conectarse a orígenes de datos en Amazon S3 .
-
Elija S3 - Apache Hive metastore (S3: metastore de Apache Hive) para consultar conjuntos de datos en Amazon S3 que utilicen un metastore de Apache Hive. Para obtener más información acerca de esta opción, consulte Conexión de Athena al almacén de metadatos de Apache Hive.
-
Elija Custom or shared connector (Conector personalizado o compartido) si quiere crear su propio conector de origen de datos para usarlo con Athena. Para obtener información sobre cómo la escritura de un conector de origen de datos, consulte Escritura de un conector de origen de datos mediante el SDK de Athena Query Federation.
En este tutorial se elige Amazon CloudWatch Logs como origen de datos federado.
-
-
Elija Next (Siguiente).
-
En la página Enter data source details (Ingresar detalles del origen de datos), en Data source name (Nombre del origen de datos), ingrese el nombre que quiera utilizar en las instrucciones SQL cuando consulte el origen de datos desde Athena (por ejemplo,
CloudWatchLogs
). El nombre puede tener hasta 127 caracteres y debe ser único dentro de su cuenta. No se puede cambiar después crearlo. Los caracteres válidos son a-z, A-Z, 0-9, _ (guion bajo), @ (arroba) y - (guion). Los nombresawsdatacatalog
,hive
,jmx
ysystem
están reservados por Athena y no se pueden utilizar para nombres de orígenes de datos. -
Para Lambda function (Función de Lambda), elija Create Lambda function (Crear una función de Lambda). La página de funciones del conector elegido se abre en la consola AWS Lambda. La página incluye información detallada sobre el conector.
-
En Application settings (Configuración de aplicación), lea detenidamente la descripción de cada configuración de aplicación y, a continuación, ingrese los valores que correspondan a los requisitos.
La configuración de aplicación que ve varía según el conector del origen de datos. La configuración mínima requerida incluye lo siguiente:
-
AthenaCatalogName: un nombre para la función Lambda en minúsculas que indica el origen de datos de destino, como
cloudwatchlogs
. -
SpillBucket: un bucket de Amazon S3 en la cuenta para almacenar datos que superen los límites de tamaño de respuesta de la función de Lambda.
nota Los datos vertidos no se reutilizan en ejecuciones posteriores y se pueden eliminar de forma segura después de 12 horas. Athena no elimina estos datos por usted. Para administrar estos objetos, considere agregar una política del ciclo de vida de los objetos que elimine los datos antiguos del bucket de vertido de Simple Storage Service (Amazon S3). Para obtener más información, consulte Administración del ciclo de vida de almacenamiento en la Guía del usuario de Amazon S3.
-
-
Seleccione I acknowledge that this app creates custom IAM roles and resource policies (Confirmo que esta aplicación puede crear roles de IAM y políticas de recursos personalizados). Para obtener más información, elija el enlace Info (Información).
-
Elija Implementar. Una vez finalizada la implementación, aparece la función Lambda en la sección Resources (Recursos) en la consola de Lambda.
Parte 2: conexión al origen de datos
Después de implementar el conector de origen de datos en su cuenta, puede conectar Athena a este.
Para conectar Athena a un origen de datos mediante un conector que haya implementado en su cuenta, lleve a cabo el siguiente procedimiento:
-
Vuelva a la página Enter data source details (Ingresar detalles de orígenes de datos) de la consola de Athena.
-
En la sección Connection details (Detalles de la conexión), elija el icono de actualización situado junto al cuadro de búsqueda Select or enter a Lambda function (Seleccione o introduzca una función de Lambda).
-
Elija el nombre de la función que acaba de crear en la consola de Lambda. Se muestra el ARN de la función Lambda.
-
(Opcional) En Tags (Etiquetas), agregue pares clave-valor que asociar con este origen de datos. Para obtener más información acerca de las etiquetas, consulte Etiquetado de recursos de Athena.
-
Elija Next (Siguiente).
-
En la página Review and create (Revisar y crear), revise los detalles del origen de datos y, a continuación, elija Create data source (Crear origen de datos).
-
La sección Data source details (Detalles del origen de datos) de la página de la fuente de datos muestra información sobre el nuevo conector. Ahora puede usar el conector en sus consultas de Athena.
Para obtener información sobre cómo escribir consultas con conectores de datos, consulte Escritura de consultas federadas.