Uso de AWS Serverless Application Repository para implementar un conector de origen de datos de Hive - Amazon Athena

Uso de AWS Serverless Application Repository para implementar un conector de origen de datos de Hive

Para implementar un conector de origen de datos de Athena para Hive, puede utilizar AWS Serverless Application Repository en lugar de empezar con la consola de Athena. Utilice AWS Serverless Application Repository para encontrar el conector que quiere utilizar, proporcione los parámetros que requiere el conector y, a continuación, implemente el conector en su cuenta. Luego, después de implementar el conector, utilice la consola de Athena para poner el origen de datos a disposición de Athena.

Para usar el AWS Serverless Application Repository para implementar un conector de origen de datos para Hive en su cuenta
  1. Inicie sesión en la AWS Management Console y abra el repositorio de aplicaciones sin servidor.

  2. En el panel de navegación, elija Aplicaciones disponibles.

  3. Seleccione la opción Show apps that create custom IAM roles or resource policies (Mostrar aplicaciones que crean roles de IAM personalizados o políticas de recursos).

  4. En el cuadro de búsqueda, escriba Hive. Los conectores que aparecen incluyen los dos siguientes:

    • AthenaHiveMetastoreFunction: archivo .jar de la función Uber Lambda.

    • AthenaHiveMetastoreFunctionWithLayer: capa de Lambda y archivo .jar de función delgada de Lambda.

    Las dos aplicaciones tienen la misma funcionalidad y difieren solo en su implementación. Puede utilizar cualquiera de ellas para crear una función Lambda que conecte Athena al metaalmacén de Hive.

  5. Elija el nombre del conector que desea usar. En este tutorial se utiliza AthenaHiveMetastoreFunction.

    
                    Elija el nombre del conector de origen de datos de Athena para Hive.
  6. En Application settings (Configuración de aplicación), ingrese los parámetros de la función Lambda.

    • LambdaFuncName: Proporcione un nombre para la función. Por ejemplo, myHiveMetastore.

    • SpillLocation: especifique una ubicación de Amazon S3 en esta cuenta para contener los metadatos de desbordamiento si el tamaño de la respuesta de la función de Lambda supera los 4 MB.

    • HMSUris: ingrese el URI de su host del metaalmacén de Hive que utiliza el protocolo Thrift en el puerto 9083. Utilice la sintaxis thrift://<host_name>:9083.

    • LambdaMemory: especifique un valor comprendido entre 128 y 3008 MB. A la función Lambda se le asignan ciclos de CPU proporcionales a la cantidad de memoria que configure. El valor predeterminado es 1024.

    • LambdaTimeout: especifique el tiempo máximo permitido de ejecución de invocación Lambda en segundos de 1 a 900 (900 segundos es 15 minutos). El valor predeterminado es 300 segundos (5 minutos).

    • VPCSecurityGroupIds: ingrese una lista separada por comas de ID de grupo de seguridad de la VPC para el metaalmacén de Hive.

    • VPCSubnetIds: ingrese una lista separada por comas de ID de subred de la VPC para el metaalmacén de Hive.

  7. En la parte inferior derecha de la página Application details (Detalles de la aplicación), seleccione I acknowledge that this app creates custom IAM roles (Confirmo que esta aplicación puede crear roles de IAM personalizados) y, a continuación, elija Deploy (Implementar).

En este punto, puede configurar Athena para que utilice la función Lambda para conectarse al metaalmacén de Hive. Para ver los pasos, consulte Configuración de Athena para utilizar un conector de almacén de metadatos de Hive implementado.