Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Conexión del Catálogo de datos a un metaalmacén de Hive externo
Para conectarlo AWS Glue Data Catalog a un metaalmacén de Hive, debes implementar una aplicación llamada -. AWS SAM GlueDataCatalogFederation HiveMetastore
La AWS SAM aplicación crea la conexión para el metaalmacén de Hive detrás de Amazon API Gateway mediante una función Lambda. La AWS SAM aplicación utiliza un identificador de recursos uniforme (URI) como entrada del usuario y conecta el metabastore externo de Hive al catálogo de datos. Cuando un usuario ejecuta una consulta en las tablas de Hive, el catálogo de datos llama al punto final de Gateway. API El punto de conexión invoca la función de Lambda para recuperar los metadatos de las tablas de Hive.
Para conectar el Catálogo de datos al metaalmacén de Hive y configurar los permisos
-
Implemente la AWS SAM aplicación.
Inicie sesión en AWS Management Console y abra el AWS Serverless Application Repository.
En el panel de navegación, elija Aplicaciones disponibles.
-
Elija Aplicaciones públicas.
Seleccione la opción Mostrar aplicaciones que crean IAM roles personalizados o políticas de recursos.
En el cuadro de búsqueda, introduce el nombre GlueDataCatalogFederation- HiveMetastore.
-
Seleccione la HiveMetastore aplicación GlueDataCatalogFederation-.
-
En Configuración de la aplicación, introduzca la siguiente configuración mínima requerida para la función de Lambda:
Nombre de la aplicación: un nombre para AWS SAM la aplicación.
GlueConnectionName- Un nombre para la conexión.
HiveMetastoreURIs- El servidor URI de tu metatienda Hive.
-
LambdaMemory- La cantidad de memoria Lambda en MB de 128 a 10240. El valor predeterminado es 1024.
LambdaTimeout- El tiempo de ejecución máximo de la invocación a Lambda en segundos. El valor predeterminado es 30.
VPCSecurityGroupIdsy VPCSubnetIds- Información sobre VPC dónde se encuentra el metabastore de Hive.
Seleccione Acepto que esta aplicación crea IAM roles y políticas de recursos personalizados. Para obtener más información, elija el enlace Info.
En la parte inferior derecha de la sección Configuración de aplicación, elija Implementar. Una vez finalizada la implementación, aparece la función de Lambda en la sección Recursos en la consola de Lambda.
La aplicación se implementa en Lambda. Su nombre va precedido de serverlessrepo- para indicar que la aplicación se implementó desde. AWS Serverless Application Repository Al seleccionar la aplicación, accederá a la página Recursos, donde se enumeran todos los recursos de la aplicación que se implementaron. Los recursos incluyen la función Lambda que permite la comunicación entre el catálogo de datos y el metabastore de Hive, la AWS Glue conexión y otros recursos necesarios para la federación de bases de datos.
-
Crear una base de datos federada en Data Catalog.
Tras crear una conexión al metabastore de Hive, puede crear bases de datos federadas en el catálogo de datos que apunten a las bases de datos externas del metabastore de Hive. Debe crear una base de datos correspondiente en el catálogo de datos para cada base de datos del metaalmacén de Hive que vaya a conectar al catálogo de datos.
-
Ver las tablas de la base de datos federada.
Después de crear la base de datos federada, puede ver la lista de tablas en su metaalmacén de Hive mediante la consola de Lake Formation o la AWS CLI.
-
Conceder permisos.
Una vez creada la base de datos, puede conceder permisos a otros IAM usuarios y roles de su cuenta o a organizaciones Cuentas de AWS y usuarios externos. No podrá conceder permisos de escritura de datos (insertar, eliminar) ni permisos de metadatos (modificar, eliminar, crear) en las bases de datos federadas. Para obtener más información sobre cómo conceder permisos, consulte Administrar los permisos de Lake Formation.
-
Consultar las bases de datos federadas.
Tras conceder los permisos, los usuarios pueden iniciar sesión y empezar a consultar la base de datos federada mediante Athena y Amazon Redshift. Los usuarios ahora pueden usar el nombre de la base de datos local para hacer referencia a la base de datos de Hive en SQL las consultas.
Ejemplo de sintaxis Amazon Athena de consulta
fed_glue_db
Sustitúyalo por el nombre de la base de datos local que creó anteriormente.Select * from fed_glue_db.customers limit 10;